适用对象:想剪视频但不想碰 Premiere / Final Cut 的人;已经在用 Claude Code、Codex 或 OpenClaw 的 AI 编程用户。
阅读时间:约 8 分钟。
一、这不是又一个 AI 视频生成器
市面上的 AI 视频工具大致分两派:一派是文生视频,你写一句话,它凭空生成一段画面;另一派是帮你做字幕、切片、加特效。browser-use 团队新开源的 video-use 属于第三派——它不生成画面,而是指挥你的 AI 编程助手把现有素材剪成片子。
核心卖点一句话能说清:把原始素材丢进一个文件夹,跟 Claude Code(或 Codex、Hermes、OpenClaw 等 agent)聊几句,几分钟后拿到 final.mp4。
没有剪辑面板,没有时间轴,不用记快捷键。整个过程更像是“跟程序员同事描述需求”,而不是“坐在剪辑台前操作”。
二、它能做什么?比想象中更实用
video-use 不是一个演示品。它的流水线覆盖了一次完整粗剪所需的大部分环节:
- 自动剔除填充词:
um、uh、反复重来的半句话,直接剪掉; - 消除死寂和无效片段:说话人停下来想词、调试设备的空白段,会被自动识别并删除;
- 30ms 音频淡入淡出:每个切口都做了短渐变,避免剪辑点爆音或跳变;
- 一键烧录字幕:默认是 2 词大写的短视频风格字幕,也可以换成你自己的样式;
- 自动生成动画 overlay:可以调用 HyperFrames、Remotion、Manim 或 PIL 生成配图/动画,每个动画由独立子 agent 并行处理;
- 渲染前自我检查:在每个切点处检查渲染输出,有问题自动回炉,最多重试 3 次;
- 会话记忆持久化:项目信息写入
project.md,这周剪了一半,下周打开还能接着干。
简单说,它把“粗剪 + 字幕 + 简单包装”这条最费时间的流水线,交给了 AI agent。
三、它的思路很朴素:LLM 不“看”视频,而是“读”视频
video-use 最关键的工程决策,是拒绝让 LLM 直接读视频帧。
如果 naive 一点做,30 秒 30fps 的视频就有 900 帧,每帧 1500 tokens,喂给 LLM 就是 135 万 tokens 的噪音。video-use 的做法是两层抽象:
第一层:音频转录。 调用 ElevenLabs Scribe,得到逐词时间戳、说话人分离、笑声/掌声等音频事件。所有素材会被压缩进一个约 12KB 的 takes_packed.md,这是 LLM 的主要阅读材料。
第二层:按需视觉复合。 只在关键决策点调用 timeline_view,生成“胶片条 + 波形 + 文字标签”的 PNG 预览。比如两个片段衔接处看起来可疑,才让 LLM 瞄一眼。
这跟 browser-use 让 LLM 读 DOM 而不是读截图的哲学一脉相承:把非结构化的视觉信息,先变成结构化的文本,再交给 LLM 推理。
四、安装:两种方式,丰俭由人
方式 A:让 Claude Code 自己装(推荐)
如果你已经在用 Claude Code,把下面这段提示词贴进去就行:
Set up https://github.com/browser-use/video-use for me.
Read install.md first to install this repo, wire up ffmpeg, register the skill with whichever agent you're running under, and set up the ElevenLabs API key — ask me to paste it when you need it. Then read SKILL.md for daily usage, and always read helpers/ because that's where the editing scripts live. After install, don't transcribe anything on your own — just tell me it's ready and wait for me to drop footage into aagent 会自己 clone 仓库、装依赖、注册 skill,并只在需要 ElevenLabs API key 时问你一次。你可以到 elevenlabs.io 申请免费额度。
方式 B:手动安装
# 1. 克隆并软链到 Claude Code 的 skills 目录
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use
# 2. 安装依赖
cd ~/Developer/video-use
uv sync # 或 pip install -e .
brew install ffmpeg
brew install yt-dlp # 可选,下载在线素材用
# 3. 配置 ElevenLabs API key
cp .env.example .env
$EDITOR .env # 填入 ELEVENLABS_API_KEY=...如果你还没用过 Claude Code,可以先看看我之前写的 Claude Code 学会了 Git 最值钱的本事,了解它的基本工作流。
五、实际工作流:三步出片
装好之后,日常使用只需要三步:
1. 把素材放进文件夹
cd /path/to/your/videos
claude # 或 codex、hermes 等2. 用自然语言下达指令
edit these into a launch videoagent 会先盘点素材,提出剪辑策略,等你确认后再动手。
3. 等 final.mp4 出炉
所有输出放在 <videos_dir>/edit/ 下,skill 目录保持干净。流水线会自动执行:
Transcribe → Pack → LLM Reason → EDL → Render → Self-Eval
│
└─ 发现问题 → 修复重渲染(最多 3 次)也就是说,你不需要盯着每一刀,它会在渲染后自己检查切口是否自然、字幕有没有错位、画面有没有跳变,通过了才把成品给你。
六、适合谁?不适合谁?
适合的:
- 口播博主、教程 UP、访谈类内容创作者,粗剪需求占大头;
- 已经有 AI 编程助手使用习惯,想把它从“写代码”拓展到“处理多媒体”的人;
- 对 ffmpeg 不熟练,但又不想为了几个简单剪辑买专业软件的人。
不适合的:
- 需要复杂叙事节奏、多轨混音、调色意境的商业项目;
- 对每一帧都有精确控制要求的剪辑师;
- 没有 ElevenLabs API key 且不愿意注册的人(转录目前依赖它)。
七、几个值得注意的细节
- 它默认不会擅自处理素材。 每次剪辑前会抛出策略,等你确认。这跟很多“全自动”工具不一样,保留了人工把关点。
- 动画 overlay 是并行生成的。 如果你需要多个 B-roll、图标动画,每个子 agent 独立跑,效率比单线程高很多。
- 字幕风格默认是短视频风。 如果你喜欢 B 站或 YouTube 常见的“两词大写”字幕,开箱即用;想要电影字幕,需要自己改配置。
- 项目记忆在
project.md里。 这对长周期项目很重要,因为剪辑往往一次做不完,下次打开还能接着聊。
八、这和 AI 编程有什么关系?
video-use 本质上是一个 skill——也就是给 AI 编程助手准备的一套工具脚本 + 使用规范。它再次证明了一件事:AI 编程助手正在从“帮我写代码”进化成“帮我完成整个数字工作流”。
类似的思路我最近在 AI 编程下半场,比的是「工程化」 里也聊过:现在比的不是模型智商,而是把模型组织成可复用 workflow 的能力。video-use 就是一次典型的“工程化”实践。
如果你已经在本地跑大模型,也可以参考 本地部署大模型完全指南,把 Claude Code 换成本地模型 + 兼容 OpenAI API 的接口,进一步降低使用成本。
九、总结:值得一试,但别神话它
video-use 不是魔法。它不能替代专业剪辑师,也不能凭空拍出好素材。但它确实把“从 raw footage 到能发的粗剪成片”这件事,从几个小时压缩到几十分钟。
如果你符合下面三个条件,我建议这个周末就试一下:
- 已经在用 Claude Code / Codex / OpenClaw;
- 有口播或访谈类素材需要定期粗剪;
- 愿意把一两次成片作为试错成本,调出一套适合自己的 prompt 模板。
开源项目地址:browser-use/video-use
下一步你可以做什么?
- 把一段 5 分钟的口播素材丢进去,看它能剪成什么样;
- 在
SKILL.md里读那 12 条硬性规则,理解它的剪辑底线; - 如果想省钱,可以结合 AI 编程助手开始“乱花钱”了 里的思路,控制 agent 调用成本。




发表回复