browser-use/video-use

GitHub: browser-use/video-use

video-use 是一个开源的 Claude Code 技能插件,让用户通过自然语言对话指挥 AI agent 自动完成视频剪辑。

Stars: 9703 | Forks: 1397

video-use

# video-use 隆重介绍 **video-use** —— 使用 Claude Code 编辑视频。100% 开源。 将原始素材拖入文件夹,与 Claude Code 对话,即可拿回 `final.mp4`。适用于任何内容 —— 口播、混剪、教程、旅行、访谈 —— 无需预设或菜单。 ## 功能简介 - **剪除冗余词汇**(`umm`、`uh`、口误)和片段间的无效空白 - **自动调色**每个片段(温暖电影感、中性强对比,或任何自定义的 ffmpeg 链) - **30ms 音频淡入淡出**应用于每个剪切点,让您永远不会听到爆破音 - **按照您的风格硬编码烧录字幕** —— 默认为 2 个词的大写切片,完全可自定义 - **生成动画叠加**,通过 [HyperFrames](https://github.com/heygen-com/hyperframes)、[Remotion](https://www.remotion.dev/)、[Manim](https://www.manim.community/) 或 PIL 实现 —— 在并行子 agent 中生成,每个动画对应一个子 agent - **自我评估渲染输出**,在向您展示之前,于每个剪切边界进行检查 - **持久化会话记忆**于 `project.md` 中,以便下周的会话能从您上次中断的地方继续 ## 设置提示词 将其粘贴到 Claude Code、Codex、Hermes、Openclaw 或任何具备 shell 访问权限的 agent 中: ``` Set up https://github.com/browser-use/video-use for me. Read install.md first to install this repo, wire up ffmpeg, register the skill with whichever agent you're running under, and set up the ElevenLabs API key — ask me to paste it when you need it. Then read SKILL.md for daily usage, and always read helpers/ because that's where the editing scripts live. After install, don't transcribe anything on your own — just tell me it's ready and wait for me to drop footage into a folder. ``` 该 agent 会处理克隆、依赖项安装、skill 注册,并提示您输入一次 ElevenLabs API 密钥(可在 [elevenlabs.io/app/settings/api-keys](https://elevenlabs.io/app/settings/api-keys) 获取)。 然后,将您的 agent 指向一个包含原始录制片段的文件夹: ``` cd /path/to/your/videos claude # or codex, hermes, etc. ``` 若要在您自己的 VPS 或 Telegram 上实现常驻编辑,请通过 [Browser Use Box](https://browser-use.com/bux) 运行该 agent。[观看 15 秒演示](https://www.tiktok.com/@browser_use/video/7639824093721758989)。 而在会话中: 它会盘点素材源,提出策略,等待您确认,然后在您的素材旁边生成 `edit/final.mp4`。所有输出文件都存放在 `/edit/` 中 —— skill 目录保持整洁。 ## 手动安装 如果您更愿意手动操作: ``` # 1. Clone 并 symlink 到你的 agent 的 skills 目录中 git clone https://github.com/browser-use/video-use ~/Developer/video-use ln -sfn ~/Developer/video-use ~/.claude/skills/video-use # Claude Code # ln -sfn ~/Developer/video-use ~/.codex/skills/video-use # Codex # 2. 安装 deps cd ~/Developer/video-use uv sync # or: pip install -e . brew install ffmpeg # required brew install yt-dlp # optional, for downloading online sources # 3. 添加你的 ElevenLabs API key cp .env.example .env $EDITOR .env # ELEVENLABS_API_KEY=... ``` ## 工作原理 LLM 从不“观看”视频。它是在**阅读**视频 —— 通过两层结构,为其提供实现精确到词汇边界剪切所需的一切信息。

timeline_view composite — filmstrip + speaker track + waveform + word labels + silence-gap cut candidates

**第 1 层 —— 音频转写文本(始终加载)。** 每个素材源调用一次 ElevenLabs Scribe,即可提供词汇级别的时间戳、说话人分离以及音频事件(`(laughter)`、`(applause)`、`(sigh)`)。所有录制片段打包进一个约 12KB 的 `takes_packed.md` 文件中 —— 这是 LLM 的主要阅读视图。 ``` ## C0103 (持续时间: 43.0秒, 8 个短语) [002.52-005.36] S0 Ninety percent of what a web agent does is completely wasted. [006.08-006.74] S0 We fixed this. ``` **第 2 层 —— 可视化合成(按需调用)。** `timeline_view` 会针对任何时间范围生成包含胶片条 + 波形 + 词汇标签的 PNG 图像。仅在需要做决策的点被调用 —— 比如模糊的停顿、重拍对比、剪切点合理性检查。 这与 browser-use 为 LLM 提供结构化 DOM 而非屏幕截图的思路相同 —— 只不过是针对视频的。 ## 流水线 ``` Transcribe ──> Pack ──> LLM Reasons ──> EDL ──> Render ──> Self-Eval │ └─ issue? fix + re-render (max 3) ``` 自评估循环会在每个剪切边界对_渲染后的输出_运行 `timeline_view` —— 用于捕捉画面跳变、音频爆破音、被隐藏的字幕。只有通过检查后,您才会看到预览。 ## 设计原则 1. **文本 + 按需可视化。** 不进行帧转储。转写文本即是操作界面。 2. **音频为主,画面为辅。** 剪切基于语音边界和静音间隙。 3. **询问 → 确认 → 执行 → 自评估 → 持久化。** 未经策略批准,绝不触碰剪辑。 4. **对内容类型零假设。** 先观察,询问,然后再剪辑。 5. **12 条硬性规则,其余给予艺术自由。** 制作层面的正确性不容妥协。但品味不在此列。 完整的生产规则和编辑技巧请参阅 [`SKILL.md`](./SKILL.md)。
标签:AI编程助手, FFmpeg, LLM代理, 网络调试, 自动化, 视频编辑, 逆向工具