不用学剪辑软件了，让 Claude Code 帮你剪视频：browser-use 开源 video-use 上手指南

适用对象：想剪视频但不想碰 Premiere / Final Cut 的人；已经在用 Claude Code、Codex 或 OpenClaw 的 AI 编程用户。
阅读时间：约 8 分钟。

一、这不是又一个 AI 视频生成器

市面上的 AI 视频工具大致分两派：一派是文生视频，你写一句话，它凭空生成一段画面；另一派是帮你做字幕、切片、加特效。browser-use 团队新开源的 video-use 属于第三派——它不生成画面，而是指挥你的 AI 编程助手把现有素材剪成片子。

核心卖点一句话能说清：把原始素材丢进一个文件夹，跟 Claude Code（或 Codex、Hermes、OpenClaw 等 agent）聊几句，几分钟后拿到 final.mp4。

没有剪辑面板，没有时间轴，不用记快捷键。整个过程更像是“跟程序员同事描述需求”，而不是“坐在剪辑台前操作”。

二、它能做什么？比想象中更实用

video-use 不是一个演示品。它的流水线覆盖了一次完整粗剪所需的大部分环节：

自动剔除填充词：um、uh、反复重来的半句话，直接剪掉；
消除死寂和无效片段：说话人停下来想词、调试设备的空白段，会被自动识别并删除；
30ms 音频淡入淡出：每个切口都做了短渐变，避免剪辑点爆音或跳变；
一键烧录字幕：默认是 2 词大写的短视频风格字幕，也可以换成你自己的样式；
自动生成动画 overlay：可以调用 HyperFrames、Remotion、Manim 或 PIL 生成配图/动画，每个动画由独立子 agent 并行处理；
渲染前自我检查：在每个切点处检查渲染输出，有问题自动回炉，最多重试 3 次；
会话记忆持久化：项目信息写入 project.md，这周剪了一半，下周打开还能接着干。

简单说，它把“粗剪 + 字幕 + 简单包装”这条最费时间的流水线，交给了 AI agent。

三、它的思路很朴素：LLM 不“看”视频，而是“读”视频

video-use 最关键的工程决策，是拒绝让 LLM 直接读视频帧。

如果 naive 一点做，30 秒 30fps 的视频就有 900 帧，每帧 1500 tokens，喂给 LLM 就是 135 万 tokens 的噪音。video-use 的做法是两层抽象：

第一层：音频转录。 调用 ElevenLabs Scribe，得到逐词时间戳、说话人分离、笑声/掌声等音频事件。所有素材会被压缩进一个约 12KB 的 takes_packed.md，这是 LLM 的主要阅读材料。

第二层：按需视觉复合。 只在关键决策点调用 timeline_view，生成“胶片条 + 波形 + 文字标签”的 PNG 预览。比如两个片段衔接处看起来可疑，才让 LLM 瞄一眼。

这跟 browser-use 让 LLM 读 DOM 而不是读截图的哲学一脉相承：把非结构化的视觉信息，先变成结构化的文本，再交给 LLM 推理。

四、安装：两种方式，丰俭由人

方式 A：让 Claude Code 自己装（推荐）

如果你已经在用 Claude Code，把下面这段提示词贴进去就行：

Markdown

Set up https://github.com/browser-use/video-use for me.

Read install.md first to install this repo, wire up ffmpeg, register the skill with whichever agent you're running under, and set up the ElevenLabs API key — ask me to paste it when you need it. Then read SKILL.md for daily usage, and always read helpers/ because that's where the editing scripts live. After install, don't transcribe anything on your own — just tell me it's ready and wait for me to drop footage into a

Set up https://github.com/browser-use/video-use for me.

Read install.md first to install this repo, wire up ffmpeg, register the skill with whichever agent you're running under, and set up the ElevenLabs API key — ask me to paste it when you need it. Then read SKILL.md for daily usage, and always read helpers/ because that's where the editing scripts live. After install, don't transcribe anything on your own — just tell me it's ready and wait for me to drop footage into a

agent 会自己 clone 仓库、装依赖、注册 skill，并只在需要 ElevenLabs API key 时问你一次。你可以到 elevenlabs.io 申请免费额度。

方式 B：手动安装

Markdown

# 1. 克隆并软链到 Claude Code 的 skills 目录
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use

# 2. 安装依赖
cd ~/Developer/video-use
uv sync                         # 或 pip install -e .
brew install ffmpeg
brew install yt-dlp             # 可选，下载在线素材用

# 3. 配置 ElevenLabs API key
cp .env.example .env
$EDITOR .env                   # 填入 ELEVENLABS_API_KEY=...

# 1. 克隆并软链到 Claude Code 的 skills 目录
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use

# 2. 安装依赖
cd ~/Developer/video-use
uv sync                         # 或 pip install -e .
brew install ffmpeg
brew install yt-dlp             # 可选，下载在线素材用

# 3. 配置 ElevenLabs API key
cp .env.example .env
$EDITOR .env                   # 填入 ELEVENLABS_API_KEY=...

如果你还没用过 Claude Code，可以先看看我之前写的 Claude Code 学会了 Git 最值钱的本事，了解它的基本工作流。

五、实际工作流：三步出片

装好之后，日常使用只需要三步：

1. 把素材放进文件夹

Bash

cd /path/to/your/videos
claude    # 或 codex、hermes 等

cd /path/to/your/videos
claude    # 或 codex、hermes 等

2. 用自然语言下达指令

Markdown

edit these into a launch video

edit these into a launch video

agent 会先盘点素材，提出剪辑策略，等你确认后再动手。

3. 等 final.mp4 出炉

所有输出放在 <videos_dir>/edit/ 下，skill 目录保持干净。流水线会自动执行：

Bash

Transcribe → Pack → LLM Reason → EDL → Render → Self-Eval
                                              │
                                              └─ 发现问题 → 修复重渲染（最多 3 次）

Transcribe → Pack → LLM Reason → EDL → Render → Self-Eval
                                              │
                                              └─ 发现问题 → 修复重渲染（最多 3 次）

也就是说，你不需要盯着每一刀，它会在渲染后自己检查切口是否自然、字幕有没有错位、画面有没有跳变，通过了才把成品给你。

六、适合谁？不适合谁？

适合的：

口播博主、教程 UP、访谈类内容创作者，粗剪需求占大头；
已经有 AI 编程助手使用习惯，想把它从“写代码”拓展到“处理多媒体”的人；
对 ffmpeg 不熟练，但又不想为了几个简单剪辑买专业软件的人。

不适合的：

需要复杂叙事节奏、多轨混音、调色意境的商业项目；
对每一帧都有精确控制要求的剪辑师；
没有 ElevenLabs API key 且不愿意注册的人（转录目前依赖它）。

七、几个值得注意的细节

它默认不会擅自处理素材。 每次剪辑前会抛出策略，等你确认。这跟很多“全自动”工具不一样，保留了人工把关点。
动画 overlay 是并行生成的。 如果你需要多个 B-roll、图标动画，每个子 agent 独立跑，效率比单线程高很多。
字幕风格默认是短视频风。 如果你喜欢 B 站或 YouTube 常见的“两词大写”字幕，开箱即用；想要电影字幕，需要自己改配置。
项目记忆在 project.md 里。 这对长周期项目很重要，因为剪辑往往一次做不完，下次打开还能接着聊。

八、这和 AI 编程有什么关系？

video-use 本质上是一个 skill——也就是给 AI 编程助手准备的一套工具脚本 + 使用规范。它再次证明了一件事：AI 编程助手正在从“帮我写代码”进化成“帮我完成整个数字工作流”。

类似的思路我最近在 AI 编程下半场，比的是「工程化」里也聊过：现在比的不是模型智商，而是把模型组织成可复用 workflow 的能力。video-use 就是一次典型的“工程化”实践。

如果你已经在本地跑大模型，也可以参考本地部署大模型完全指南，把 Claude Code 换成本地模型 + 兼容 OpenAI API 的接口，进一步降低使用成本。

九、总结：值得一试，但别神话它

video-use 不是魔法。它不能替代专业剪辑师，也不能凭空拍出好素材。但它确实把“从 raw footage 到能发的粗剪成片”这件事，从几个小时压缩到几十分钟。

如果你符合下面三个条件，我建议这个周末就试一下：

已经在用 Claude Code / Codex / OpenClaw；
有口播或访谈类素材需要定期粗剪；
愿意把一两次成片作为试错成本，调出一套适合自己的 prompt 模板。

开源项目地址：browser-use/video-use

下一步你可以做什么？

把一段 5 分钟的口播素材丢进去，看它能剪成什么样；
在 SKILL.md 里读那 12 条硬性规则，理解它的剪辑底线；
如果想省钱，可以结合 AI 编程助手开始“乱花钱”了里的思路，控制 agent 调用成本。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我进行处理。

发表回复取消回复

Open Claw：让 AI 真正“动手”的智能体革命

零成本玩转OpenClaw：免费API接入与避坑指南

如何为OpenClaw AI角色设置独特的人设

PicShrink：一个专注于实用的图片压缩工具

2026年“Claw”家族全系工具大盘点