不用学剪辑软件了,让 Claude Code 帮你剪视频:browser-use 开源 video-use 上手指南

适用对象:想剪视频但不想碰 Premiere / Final Cut 的人;已经在用 Claude Code、Codex 或 OpenClaw 的 AI 编程用户。
阅读时间:约 8 分钟。


一、这不是又一个 AI 视频生成器

市面上的 AI 视频工具大致分两派:一派是文生视频,你写一句话,它凭空生成一段画面;另一派是帮你做字幕、切片、加特效。browser-use 团队新开源的 video-use 属于第三派——它不生成画面,而是指挥你的 AI 编程助手把现有素材剪成片子

核心卖点一句话能说清:把原始素材丢进一个文件夹,跟 Claude Code(或 Codex、Hermes、OpenClaw 等 agent)聊几句,几分钟后拿到 final.mp4

没有剪辑面板,没有时间轴,不用记快捷键。整个过程更像是“跟程序员同事描述需求”,而不是“坐在剪辑台前操作”。


二、它能做什么?比想象中更实用

video-use 不是一个演示品。它的流水线覆盖了一次完整粗剪所需的大部分环节:

  • 自动剔除填充词umuh、反复重来的半句话,直接剪掉;
  • 消除死寂和无效片段:说话人停下来想词、调试设备的空白段,会被自动识别并删除;
  • 30ms 音频淡入淡出:每个切口都做了短渐变,避免剪辑点爆音或跳变;
  • 一键烧录字幕:默认是 2 词大写的短视频风格字幕,也可以换成你自己的样式;
  • 自动生成动画 overlay:可以调用 HyperFrames、Remotion、Manim 或 PIL 生成配图/动画,每个动画由独立子 agent 并行处理;
  • 渲染前自我检查:在每个切点处检查渲染输出,有问题自动回炉,最多重试 3 次;
  • 会话记忆持久化:项目信息写入 project.md,这周剪了一半,下周打开还能接着干。

简单说,它把“粗剪 + 字幕 + 简单包装”这条最费时间的流水线,交给了 AI agent。


三、它的思路很朴素:LLM 不“看”视频,而是“读”视频

video-use 最关键的工程决策,是拒绝让 LLM 直接读视频帧

如果 naive 一点做,30 秒 30fps 的视频就有 900 帧,每帧 1500 tokens,喂给 LLM 就是 135 万 tokens 的噪音。video-use 的做法是两层抽象:

第一层:音频转录。 调用 ElevenLabs Scribe,得到逐词时间戳、说话人分离、笑声/掌声等音频事件。所有素材会被压缩进一个约 12KB 的 takes_packed.md,这是 LLM 的主要阅读材料。

第二层:按需视觉复合。 只在关键决策点调用 timeline_view,生成“胶片条 + 波形 + 文字标签”的 PNG 预览。比如两个片段衔接处看起来可疑,才让 LLM 瞄一眼。

这跟 browser-use 让 LLM 读 DOM 而不是读截图的哲学一脉相承:把非结构化的视觉信息,先变成结构化的文本,再交给 LLM 推理。


四、安装:两种方式,丰俭由人

方式 A:让 Claude Code 自己装(推荐)

如果你已经在用 Claude Code,把下面这段提示词贴进去就行:

Markdown
Set up https://github.com/browser-use/video-use for me.

Read install.md first to install this repo, wire up ffmpeg, register the skill with whichever agent you're running under, and set up the ElevenLabs API key — ask me to paste it when you need it. Then read SKILL.md for daily usage, and always read helpers/ because that's where the editing scripts live. After install, don't transcribe anything on your own — just tell me it's ready and wait for me to drop footage into a

agent 会自己 clone 仓库、装依赖、注册 skill,并只在需要 ElevenLabs API key 时问你一次。你可以到 elevenlabs.io 申请免费额度。

方式 B:手动安装

Markdown
# 1. 克隆并软链到 Claude Code 的 skills 目录
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use

# 2. 安装依赖
cd ~/Developer/video-use
uv sync                         # 或 pip install -e .
brew install ffmpeg
brew install yt-dlp             # 可选,下载在线素材用

# 3. 配置 ElevenLabs API key
cp .env.example .env
$EDITOR .env                   # 填入 ELEVENLABS_API_KEY=...

如果你还没用过 Claude Code,可以先看看我之前写的 Claude Code 学会了 Git 最值钱的本事,了解它的基本工作流。


五、实际工作流:三步出片

装好之后,日常使用只需要三步:

1. 把素材放进文件夹

Bash
cd /path/to/your/videos
claude    # 或 codex、hermes 等

2. 用自然语言下达指令

Markdown
edit these into a launch video

agent 会先盘点素材,提出剪辑策略,等你确认后再动手。

3. 等 final.mp4 出炉

所有输出放在 <videos_dir>/edit/ 下,skill 目录保持干净。流水线会自动执行:

Bash
Transcribe  Pack  LLM Reason  EDL  Render  Self-Eval
                                              
                                              └─ 发现问题  修复重渲染(最多 3 次)

也就是说,你不需要盯着每一刀,它会在渲染后自己检查切口是否自然、字幕有没有错位、画面有没有跳变,通过了才把成品给你。


六、适合谁?不适合谁?

适合的:

  • 口播博主、教程 UP、访谈类内容创作者,粗剪需求占大头;
  • 已经有 AI 编程助手使用习惯,想把它从“写代码”拓展到“处理多媒体”的人;
  • 对 ffmpeg 不熟练,但又不想为了几个简单剪辑买专业软件的人。

不适合的:

  • 需要复杂叙事节奏、多轨混音、调色意境的商业项目;
  • 对每一帧都有精确控制要求的剪辑师;
  • 没有 ElevenLabs API key 且不愿意注册的人(转录目前依赖它)。

七、几个值得注意的细节

  1. 它默认不会擅自处理素材。 每次剪辑前会抛出策略,等你确认。这跟很多“全自动”工具不一样,保留了人工把关点。
  2. 动画 overlay 是并行生成的。 如果你需要多个 B-roll、图标动画,每个子 agent 独立跑,效率比单线程高很多。
  3. 字幕风格默认是短视频风。 如果你喜欢 B 站或 YouTube 常见的“两词大写”字幕,开箱即用;想要电影字幕,需要自己改配置。
  4. 项目记忆在 project.md 里。 这对长周期项目很重要,因为剪辑往往一次做不完,下次打开还能接着聊。

八、这和 AI 编程有什么关系?

video-use 本质上是一个 skill——也就是给 AI 编程助手准备的一套工具脚本 + 使用规范。它再次证明了一件事:AI 编程助手正在从“帮我写代码”进化成“帮我完成整个数字工作流”。

类似的思路我最近在 AI 编程下半场,比的是「工程化」 里也聊过:现在比的不是模型智商,而是把模型组织成可复用 workflow 的能力。video-use 就是一次典型的“工程化”实践。

如果你已经在本地跑大模型,也可以参考 本地部署大模型完全指南,把 Claude Code 换成本地模型 + 兼容 OpenAI API 的接口,进一步降低使用成本。


九、总结:值得一试,但别神话它

video-use 不是魔法。它不能替代专业剪辑师,也不能凭空拍出好素材。但它确实把“从 raw footage 到能发的粗剪成片”这件事,从几个小时压缩到几十分钟。

如果你符合下面三个条件,我建议这个周末就试一下:

  1. 已经在用 Claude Code / Codex / OpenClaw;
  2. 有口播或访谈类素材需要定期粗剪;
  3. 愿意把一两次成片作为试错成本,调出一套适合自己的 prompt 模板。

开源项目地址:browser-use/video-use


下一步你可以做什么?

  • 把一段 5 分钟的口播素材丢进去,看它能剪成什么样;
  • SKILL.md 里读那 12 条硬性规则,理解它的剪辑底线;
  • 如果想省钱,可以结合 AI 编程助手开始“乱花钱”了 里的思路,控制 agent 调用成本。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

推荐阅读

  • 不用学剪辑软件了,让 Claude Code 帮你剪视频:browser-use 开源 video-use 上手指南

    适用对象:想剪视频但不想碰 Premiere / Final Cut 的人;已经在用 Claude Code、Codex 或 OpenClaw 的 AI 编程用户。 阅读时间:约 8 分钟。 一、这不…

  • AI 编程助手总把页面改丑?Google Labs 这份 DESIGN.md 让 AI 一次看懂你的设计系统

    让 Claude Code 帮你改一个按钮,它能把圆角、字号、阴影全给你换一遍;让 Cursor 补一个弹窗,它写出来的颜色跟你项目里已有的调色盘八竿子打不着。不是模型不行,是你没把「设计系统」告诉它…

  • DeepSeek 联合北大放出 DSpark:单用户生成速度最高提 85%,一份能从零跑起来的实操指南

    6 月 27 日,DeepSeek 在 GitHub 低调推了一篇新论文,署名里有创始人梁文锋和北京大学团队。论文介绍的是一套推测解码(Speculative Decoding)框架,名字叫 DSpa…

  • 没发布会、没大厂背书:一条推文扔出来的开源编程模型,35B击败十倍大模型

    6月26日,X上一位叫 Berry Xia 的用户发了一条推文。没有发布会直播,没有CEO站台,没有精心剪辑的宣传片。推文里就一个名字:Ornith-1.0。四个模型,从小到大排列整齐,全部MIT协议…

暗夜独行