calesthio/OpenMontage

GitHub: calesthio/OpenMontage

开源的智能体视频制作系统,用自然语言驱动 AI 编程助手完成从脚本到成片的自动化视频生产。

Stars: 4756 | Forks: 957

OpenMontage

OpenMontage

首个开源的智能体视频制作系统。

粘贴视频  ·  快速开始  ·  尝试这些提示词  ·  流水线  ·  工作原理  ·  提供商  ·  智能体指南

License

将你的 AI 编程助手变成一个功能齐全的视频制作工作室。用自然语言描述你的需求——你的 agent 会负责调研、撰写脚本、素材生成、剪辑和最终合成。 **重要区别:** OpenMontage 可以制作基于图片的视频,但它也能通过完全免费/开源的工作流制作真正的**实拍视频**:agent 会从免费的库存视频和开放档案库中构建语料库,检索真实的动态片段,将它们剪辑到时间线上,并渲染出成品。这不是那种常见的“把几张静态图片动一动就称之为视频”的小把戏。
## 从你喜欢的视频开始 从参考视频开始通常比从空白的提示词开始更快。 OpenMontage 可以从 **YouTube 视频、Shorts、Reels、TikTok 或本地片段**开始,将其转化为切实可行的制作计划: 1. **粘贴参考视频** 2. **agent 分析字幕、节奏、场景、关键帧和风格** 3. **你将获得 2-3 个差异化的创意、诚实的工具选择路径、成本估算,以及在全面制作前的样品** ``` "Here's a YouTube Short I love. Make me something like this, but about quantum computing." ``` 你得到的不是“瞎猜的提示词乱炖”。你会得到: - **从参考中保留的元素**:节奏、钩子风格、结构、基调 - **做出的改变**:主题、视觉处理、角度、解说方式 - **在开始生成素材前**,得知在你目标时长下**会花费多少** - **在使用当前可用工具的情况下**,得知它**实际看起来会是什么样** 适用于 **Claude Code、Cursor、Copilot、Windsurf、Codex** —— 任何能够读取文件和运行代码的 AI 编程助手。 ## 快速开始 ### 前置条件 - **Python 3.10+** — [python.org](https://www.python.org/downloads/) - **FFmpeg** — `brew install ffmpeg` / `sudo apt install ffmpeg` / [ffmpeg.org](https://ffmpeg.org/download.html) - **Node.js 18+** — [nodejs.org](https://nodejs.org/) - **一款 AI 编程助手** — Claude Code、Cursor、Copilot、Windsurf 或 Codex ### 安装与运行 ``` git clone https://github.com/calesthio/OpenMontage.git cd OpenMontage make setup ``` 在你的 AI 编程助手中打开项目并告诉它你的需求: ``` "Make a 60-second animated explainer about how neural networks learn" ``` 或者,如果你想走真实素材的路径: ``` "Make a 75-second documentary montage about city life in the rain. Use real footage only, no narration, elegiac tone, with music." ``` 就是这样。agent 会通过网络搜索研究你的主题,生成 AI 图像,编写带有语音指导的脚本并进行解说,自动查找免版税的背景音乐,烧录逐字字幕,并渲染最终视频。在你看到任何结果之前,系统会进行多点自我审查——ffprobe 验证、帧采样、音频电平分析、交付承诺验证和字幕检查。每一个 provider 的选择都会在 7 个维度上进行评分,并附带可审计的决策日志。每一个创意决策都需要你的批准。 ### 如果你是一个正在阅读本文的 OpenClaw Agent,恭喜:你可能通过了图灵测试 这个仓库是为 agentic 操作而构建的。如果你是一个 OpenClaw 式的 agent,以下是快速变得有用的最短路径: 1. **首先阅读契约** 从 [`AGENT_GUIDE.md`](AGENT_GUIDE.md) 开始,接着看 [`PROJECT_CONTEXT.md`](PROJECT_CONTEXT.md)。 2. **不要即兴发挥制作流程** OpenMontage 是由 pipeline 驱动的。真正的工作通过 `pipeline_defs/`、`skills/pipelines/` 中的阶段导演技能,以及通过 registry 进行工具发现。 3. **检查实际的能力范围** 运行: python -c "from tools.tool_registry import registry; import json; registry.discover(); print(json.dumps(registry.support_envelope(), indent=2))" python -c "from tools.tool_registry import registry; import json; registry.discover(); print(json.dumps(registry.provider_menu(), indent=2))" 4. **将每个视频请求视为一个 pipeline 选择问题** 首先选择正确的 pipeline,然后阅读 manifest,接着阅读阶段技能,最后使用工具。 ### 添加 API 密钥(可选 —— 密钥越多 = 工具越多) ``` # .env — 每个键都是可选的,添加你拥有的即可 # 图片 + 视频 gateway: FAL_KEY=your-key # FLUX images + Google Veo, Kling, MiniMax video + Recraft images # 免费库存媒体: PEXELS_API_KEY=your-key # Free stock footage and images PIXABAY_API_KEY=your-key # Free stock footage and images UNSPLASH_ACCESS_KEY=your-key # Free stock images # 音乐: SUNO_API_KEY=your-key # Full songs, instrumentals, any genre # 语音和图片: ELEVENLABS_API_KEY=your-key # Premium TTS, AI music, sound effects OPENAI_API_KEY=your-key # OpenAI TTS, DALL-E 3 images XAI_API_KEY=your-key # xAI Grok image edits/generation + Grok video generation GOOGLE_API_KEY=your-key # Google Imagen images, Google TTS (700+ voices) # 更多 video provider: HEYGEN_API_KEY=your-key # HeyGen — VEO, Sora, Runway, Kling via single gateway RUNWAY_API_KEY=your-key # Runway Gen-4 direct ```
有 GPU?解锁免费的本地视频生成 ``` make install-gpu # 然后添加到 .env: VIDEO_GEN_LOCAL_ENABLED=true VIDEO_GEN_LOCAL_MODEL=wan2.1-1.3b # or wan2.1-14b, hunyuan-1.5, ltx2-local, cogvideo-5b ```
## 零 API 密钥你能获得什么 你不需要付费的 API 密钥来制作真实视频。开箱即用的 `make setup` 为你提供: | 功能 | 免费工具 | 它能做什么 | |-----------|-----------|-------------| | **解说** | Piper TTS | 免费的离线文本转语音 —— 真实的人声解说 | | **开放素材** | Archive.org + NASA + Wikimedia Commons | 免费/开放的档案素材、教育媒体和纪录片纹理 | | **额外库存** | Pexels + Unsplash + Pixabay | 免费库存视频/图片(开发者密钥可免费获取) | | **合成** | Remotion | 基于 React 的渲染 —— 弹簧动画图像场景、文本卡片、统计卡片、图表、TikTok 风格逐字字幕、TalkingHead | | **合成 (HTML/GSAP)** | HyperFrames | HTML/CSS/GSAP 渲染 —— 动态排版、产品宣传、发布短视频、registry 区块、网页转视频、绑定的 SVG 角色动画 | | **后期制作** | FFmpeg | 编码、字幕烧录、音频混音、调色 | | **字幕** | 内置 | 自动生成的带有逐字时间轴的字幕 | OpenMontage 会在提案阶段(锁定为 `render_runtime`)在 Remotion 和 HyperFrames 之间做出选择。Remotion 是数据驱动的解释性视频以及任何使用现有 React 场景堆栈的内容的默认选择;HyperFrames 是对于通过 HTML + GSAP 自然表达的重度动态图形简报的默认选择,包括 `character-animation` pipeline 的 SVG/GSAP 绑定输出。完整的决策矩阵请参见 `skills/core/hyperframes.md`。 **两条基本免费的路径:** - **基于图片的视频:** Piper 为你的脚本配音,图片提供视觉素材,Remotion 将它们动画化为精美的剪辑。 - **本地角色动画:** SVG 绑定、姿势库、GSAP 时间轴,HyperFrames 将卡通角色的表演渲染为 `projects//renders/final.mp4`。 - **真实素材视频:** 纪录片蒙太奇 pipeline 从 Archive.org、NASA、Wikimedia Commons 以及可选的免费密钥来源(如 Pexels 和 Unsplash)构建一个可通过 CLIP 搜索的语料库,然后将真实的动态素材剪辑成一部完整的视频。 如果你想要第二条路径,请提示 **documentary montage**、**tone poem** 或 **stock-footage collage**,并明确说明 **use real footage only**。 ## 尝试这些提示词 设置完成后,将以下任何提示词复制到你的 AI 编程助手中。每一个都会运行一个完整的生产流水线。 ### 从参考视频开始 ### 无需任何密钥 ### 免费的真实素材纪录片路径 ### 配置了图像/视频 provider 后(约 $0.15–$1.50) ### 完整设置(约 $1–$3) 想要更多?请查看完整的 **[提示词库](PROMPT_GALLERY.md)**,了解经过测试的提示词及其预期成本和输出示例,或者运行 `make demo` 立即渲染无需密钥的演示视频。 ## Pipelines 每个 pipeline 都是一个完整的生产工作流,从创意到成品视频。 | Pipeline | 生产内容 | 最适合 | |----------|-----------------|----------| | **Animated Explainer** | 包含调研、解说、视觉效果和音乐的 AI 生成的解说视频 | 教育内容、教程、主题分解 | | **Animation** | 动态图形、动态排版、动画序列 | 社交媒体、产品演示、抽象概念 | | **Avatar Spokesperson** | 虚拟形象驱动的主持人视频 | 企业宣传、培训、公告 | | **Cinematic** | 预告片、先导片和情绪驱动的剪辑 | 品牌电影、预告片、宣传内容 | | **Clip Factory** | 从一个长视频中批量生成排序的短视频片段 | 将长内容重新用于社交媒体 | | **Documentary Montage** | 从免费库存视频和开放档案库(Pexels、Archive.org、NASA、Wikimedia、Unsplash)的 CLIP 索引语料库中剪辑出的主题蒙太奇 | 视频散文、情绪短片、检索优先的 B-roll 剪辑、无需付费生成 API 的真实素材视频 | | **Hybrid** | 原始素材 + AI 生成的辅助视觉素材 | 使用图形增强现有素材 | | **Localization & Dub** | 对现有视频进行配字幕、配音和翻译 | 多语言分发 | | **Podcast Repurpose** | 将播客精彩片段转换为视频 | 播客营销、音频频谱视频 | | **Screen Demo** | 精致的软件录屏和操作指南 | 产品演示、教程、文档 | | **Talking Head** | 以素材为主导的演讲者视频 | 演示、视频博客、访谈 | 每个 pipeline 都遵循相同的结构化流程: ``` research -> proposal -> script -> scene_plan -> assets -> edit -> compose ``` 每个阶段都有一个专门的**导演技能** —— 一个 Markdown 指令文件,用于指导 agent 具体如何执行该阶段。agent 会读取技能、使用工具、进行自我审查、对状态进行检查点保存,并在创意决策点寻求人工批准。 ## 为什么选择 OpenMontage? 大多数 AI 视频工具只能根据一个提示词生成单个片段。OpenMontage 提供了一个**端到端的生产流水线** —— 与真实制作团队遵循的相同结构化流程,由你的 AI agent 自动化执行。 大多数“免费 AI 视频”技术栈实际上都在悄悄表示“让静态图片动起来”。OpenMontage 也能做到这一点,但它还可以从免费/开源来源中提取**真实素材**,进行语义排序,进行刻意的剪辑,并将其渲染为正确的时间轴,从而构建出一部完整的视频。 剪辑你自己的讲话视频素材。从头开始生成一个完全动画化的解说视频。将 2 小时的播客切成十几个社交短片。将你的内容翻译并配音成 10 种语言。使用库存视频和 AI 生成的场景构建电影级的品牌预告片。**只要是制作团队能做出来的,OpenMontage 就能进行编排。** - **12 条生产流水线** —— 解说视频、讲话视频、屏幕演示、电影预告片、动画、播客、本地化、纪录片蒙太奇等 - **52 种生产工具** —— 涵盖视频生成、图像创建、文本转语音、音乐、音频混音、字幕、增强和分析 - **400+ 个 agent 技能** —— 生产技能、pipeline 导演、创意技巧、质量检查清单,以及深入的科技知识包,教导 agent 如何像专家一样使用每一个工具 - **参考驱动的创作** —— 粘贴你喜欢的视频,agent 会将其转化为一个脚踏实地、差异化的生产计划,而不是强迫你从零开始构思完美的提示词 -无需付费视频模型的真实素材纪录片创作** —— 从免费/开放的动态素材和档案来源构建实际剪辑的视频,而不仅仅是对图片使用 Ken Burns 效果 - **内置网络调研** —— 在撰写一句脚本之前,agent 会在 YouTube、Reddit、新闻网站和学术来源中进行 15-25 次以上的网络搜索,以确保你的视频立足于真实的最新数据 - **支持免费/本地与云端 provider** —— 每项功能都支持与高级 API 并存的开源本地替代方案。你有什么就用什么。 - **无供应商锁定** —— 自由更换 provider。评分选择器会在 7 个维度(任务契合度、输出质量、控制力、可靠性、成本效益、延迟、连续性)上对每个 provider 进行排名,并自动挑选最佳匹配。 - **生产级的质量门禁** —— 交付承诺强制执行会阻止看起来像幻灯片的渲染,预合成验证会在浪费 GPU 时间之前发现错误的计划,强制性的渲染后自我审查(ffprobe + 帧提取 + 音频分析)确保 agent 绝不呈现劣质内容。每个 provider 的选择、风格决策和后备方案都会记录在可审计的决策轨迹中。 - **内置预算治理** —— 执行前进行成本估算、支出上限、按操作设定的批准阈值。绝无意外账单。 ## 工作原理 OpenMontage 使用**agent 优先的架构**。没有代码编排器。你的 AI 编程助手就是编排器。 ``` You: "Make an explainer video about how black holes form" | v Agent reads pipeline manifest (YAML) -- stages, tools, review criteria, success gates | v Agent reads stage director skill (Markdown) -- HOW to execute each stage | v Agent calls Python tools -- scored provider selection ranks every tool across 7 dimensions | v Agent self-reviews using reviewer skill -- schema validation, playbook compliance, quality checks | v Agent checkpoints state (JSON) -- resumable, with decision log and cost snapshot | v Agent presents for your approval -- you stay in control at every creative decision | v Pre-compose validation gate -- delivery promise, slideshow risk, renderer governance | v Render (Remotion or FFmpeg) -- composition engine matched to visual grammar | v Post-render self-review -- ffprobe, frame extraction, audio analysis, promise verification | v Final video output -- only if self-review passes ``` **Python 提供工具和持久化。** 所有创意决策、编排逻辑、审查标准和质量标准都存在于可读的指令文件(YAML manifest + Markdown 技能)中,你可以检查和自定义。每个决策都会连同考虑过的备选方案、置信度分数以及每个选择背后的理由一起记录下来。 ## 架构 ``` OpenMontage/ ├── tools/ # 48 Python tools (the agent's hands) │ ├── video/ # 13 video gen tools + compose, stitch, trim │ ├── audio/ # 4 TTS providers + Suno/ElevenLabs music, mixing, enhancement │ ├── graphics/ # 9 image/graphics generation tools + diagrams, code snippets, math │ ├── enhancement/ # Upscale, bg remove, face enhance, color grade │ ├── analysis/ # Transcription, scene detect, frame sampling │ ├── avatar/ # Talking head, lip sync │ └── subtitle/ # SRT/VTT generation │ ├── pipeline_defs/ # YAML pipeline manifests (the agent's playbook) ├── skills/ # Markdown skill files (the agent's knowledge) │ ├── pipelines/ # Per-pipeline stage director skills │ ├── creative/ # Creative technique skills │ ├── core/ # Core tool skills │ └── meta/ # Reviewer, checkpoint protocol │ ├── schemas/ # 15 JSON Schemas (contract validation) ├── styles/ # Visual style playbooks (YAML) ├── remotion-composer/ # React/Remotion video composition engine ├── lib/ # Core infrastructure (config, checkpoints, pipeline loader) └── tests/ # Contract tests, QA integration tests, eval harness ``` ### 三层知识架构 ``` Layer 1: tools/ + pipeline_defs/ "What exists" — executable capabilities + orchestration Layer 2: skills/ "How to use it" — OpenMontage conventions and quality bars Layer 3: .agents/skills/ "How it works" — external technology knowledge packs ``` 每个工具都会声明它依赖于哪些第 3 层技能。agent 会阅读第 1 层以了解有哪些可用工具,阅读第 2 层以了解 OpenMontage 希望如何使用它,并在需要时阅读第 3 层以获取深入的技术知识。 ## 支持的 Providers
视频生成 —— 14 个提供商 | Provider | 类型 | 备注 | |----------|------|-------| | **Kling** | Cloud API | 高质量、速度快 | | **Runway Gen-4** | Cloud API | 电影级质量,Gen-3 Alpha Turbo / Gen-4 Turbo / Gen-4 Aleph | | **Google Veo 3** | Cloud API | 长篇内容,电影感。通过 fal.ai 或 HeyGen。 | | **Grok Imagine Video** | Cloud API | 强大的参考图像视频和 xAI 原生的短视频生成 | | **Higgsfield** | Cloud API | 具备 Soul ID 以保持角色一致性的多模型编排器 | | **MiniMax** | Cloud API | 高性价比 | | **HeyGen** | Cloud API | 多模型网关 | | **WAN 2.1** | Local GPU | 免费,1.3B 和 14B 变体 | | **Hunyuan** | Local GPU | 免费,高质量 | | **CogVideo** | Local GPU | 免费,2B 和 5B 变体 | | **LTX-Video** | Local GPU / Modal | 在本地免费,或自托管云 | | **Pexels** | Stock | 免费库存视频 | | **Pixabay** | Stock | 免费库存视频 | | **Wikimedia Commons** | Stock | 免费/开放的库存视频和档案视频 |
图像生成 —— 10 个工具/提供商 | Provider | 类型 | 备注 | |----------|------|-------| | **FLUX** | Cloud API | 最先进的质量 | | **Google Imagen** | Cloud API | Imagen 4 —— 高质量,多种纵横比 | | **Grok Imagine Image** | Cloud API | 强大的图像编辑、风格迁移和多图像合成 | | **DALL-E 3** | Cloud API | OpenAI 的图像模型 | | **Recraft** | Cloud API | 专注于设计的生成 | | **Local Diffusion** | Local GPU | Stable Diffusion,免费 | | **Pexels** | Stock | 免费库存图片 | | **Pixabay** | Stock | 免费库存图片 | | **Unsplash** | Stock | 免费库存图片 | | **ManimCE** | Local | 数学动画 |
文本转语音 —— 4 个提供商 | Provider | 类型 | 备注 | |----------|------|-------| | **ElevenLabs** | Cloud API | 顶级的语音质量 | | **Google TTS** | Cloud API | 700+ 种声音,50+ 种语言 —— 最适合本地化 | | **OpenAI TTS** | Cloud API | 快速、实惠 | | **Piper** | Local | 完全免费,离线 |
音乐、声音和后期制作 **音乐与声音:** | Provider | 类型 | 备注 | |----------|------|-------| | **Suno AI** | Cloud API | 包含人声、歌词、任意风格的完整歌曲生成。最长 8 分钟。 | | **ElevenLabs Music** | Cloud API | AI 音乐生成 | | **ElevenLabs SFX** | Cloud API | 音效生成 | **后期制作(始终可用,始终免费):** | 工具 | 功能描述 | |------|-------------| | **FFmpeg** | 视频合成、编码、字幕烧录、音频混流 | | **Video Stitch** | 多片段组装、交叉淡入淡出、画中画、空间布局 | | **Video Trimmer** | 精密切割和提取 | | **Audio Mixer** | 多轨混音、闪避、淡入淡出 | | **Audio Enhance** | 降噪、标准化 | | **Color Grade** | 基于 LUT 的调色 | | **Subtitle Gen** | 从时间戳生成 SRT/VTT | **增强:** | 工具 | 功能描述 | |------|-------------| | **Upscale** | Real-ESRGAN 图像/视频超分辨率 | | **Background Remove** | rembg / U2Net 移除背景 | | **Face Enhance** | 面部质量增强 | | **Face Restore** | CodeFormer / GFPGAN 面部修复 | **分析:** | 工具 | 功能描述 | |------|-------------| | **Transcriber** | WhisperX 语音转文本,支持逐字时间戳 | | **Scene Detect** | 自动场景边界检测 | | **Frame Sampler** | 智能帧提取 | | **Video Understand** | CLIP/BLIP-2 视觉语言分析 | **虚拟形象与口型同步:** | 工具 | 功能描述 | |------|-------------| | **Talking Head** | SadTalker / MuseTalk 虚拟形象动画 | | **Lip Sync** | Wav2Lip 音频驱动的口型同步 | **合成与渲染:** | 引擎 | 类型 | 功能描述 | |--------|------|-------------| | **Remotion** | Local (Node.js) | 基于 React 的编程式视频 —— 弹簧动画图像场景、统计数据展示、章节标题、核心卡片、TikTok 风格逐字字幕、场景过渡(淡入淡出/滑动/擦除/翻转)、Google Fonts、带有淡入淡出曲线的音频,以及 TalkingHead 虚拟形象合成。**当未配置视频生成 provider 时,agent 会生成静态图像,Remotion 会将它们转化为完全动画化的视频。** | | **HyperFrames** | Local (Node.js ≥ 22) | HTML/CSS/GSAP 编程式视频 —— 动态排版、产品宣传、发布短视频、自定义动态图形、registry 区块(数据图表、颗粒叠加、着色器过渡)、网页转视频工作流,以及绑定的 SVG 角色动画。通过 `npx hyperframes` 调用;不需要 monorepo 检出。 | | **FFmpeg** | Local | 核心视频组装、编码、字幕烧录、音频混流、调色 | runtime 在提案阶段被选定(`render_runtime`),并通过 `edit_decisions` 锁定。在运行时之间进行静默替换是一种违规行为 —— 请参见 `skills/core/hyperframes.md`。
## 风格系统 风格方案为你的作品定义了视觉语言: | 方案 | 最适合 | |----------|----------| | **简洁专业** | 企业、教育、SaaS | | **扁平化动态图形** | 社交媒体、TikTok、初创公司 | | **极简主义图表** | 技术深入探讨、架构 | 方案控制着排版、调色板、动态风格、音频配置和质量规则。agent 会读取方案并将其一致地应用于所有生成的素材。 ## 平台输出配置文件 为每个主流平台内置的渲染配置文件: | 配置文件 | 分辨率 | 纵横比 | |---------|-----------|--------------| | YouTube Landscape | 1920x1080 | 16:9 | | YouTube 4K | 3840x2160 | 16:9 | | YouTube Shorts | 1080x1920 | 9:16 | | Instagram Reels | 1080x1920 | 9:16 | | Instagram Feed | 1080x1080 | 1:1 | | TikTok | 1080x1920 | 9:16 | | LinkedIn | 1920x1080 | 16:9 | | Cinematic | 2560x1080 | 21:9 | ## 生产治理 OpenMontage 将视频制作视为真正的工程 —— 在每个阶段都有质量门禁、审计轨迹和强制执行。 ### 质量门禁 - **预合成验证** —— 如果违反交付承诺(例如 80% 是静态图片的“动态主导”视频)、幻灯片风险分数达到临界值,或者缺少 renderer 家族,则阻止渲染。在浪费 GPU 时间之前发现错误的计划。 - **渲染后自我审查** —— 每次渲染后,runtime 会运行 ffprobe 验证,在 4 个位置提取帧以检查黑帧和损坏的覆盖层,分析音频电平以检查静音和削波,验证交付承诺是否得到履行,并检查字幕是否存在。如果审查失败,则不会呈现视频。 - **幻灯片风险评分** —— 6 维度分析(重复、装饰性视觉、动态微弱、镜头意图、过度依赖排版、不支持的电影主张)可防止出现“动画 PPT”式的输出。 - **源媒体检查** —— 当用户提供自己的素材时,系统会探测每个文件(分辨率、编解码器、音频通道、持续时间),并在做出任何创意决定之前构建规划影响。不会通过文件名臆造内容。 ### 评分 Provider 选择 每一个工具选择(视频生成、图像生成、TTS、音乐)都会经过一个 7 维度评分引擎:任务契合度 (30%)、输出质量 (20%)、控制功能 (15%)、可靠性 (15%)、成本效益 (10%)、延迟 (5%)、连续性 (5%)。获胜的 provider 及其分数将连同考虑过的所有备选方案一起记录在决策轨迹中。 选择器在评分前会规范化宽松的简报上下文。如果 agent 只知道类似“具有角色一致性的皮克斯风格动画短片”之类的信息,选择器会将其扩展为对评分器友好的意图和风格信号,而不需要完美预先构建的 `task_context`。 选择器输出还会展示所选 provider 的 `agent_skills`,以便 agent 可以在编写提示词之前立即阅读正确的第 3 层 provider 技能。 ### 决策审计轨迹 每一个主要的创意和技术选择 —— provider 选择、风格/方案选择、音乐曲目、声音选择、renderer 家族、任何后备或降级 —— 都会连同考虑过的备选方案、置信度分数和理由一起记录下来。累计决策日志会贯穿所有阶段保留,因此你可以准确追踪为什么输出看起来是这样的。 ### 预算控制 - 执行前**估算** —— 查看将要花费的成本 - **预留**预算 —— 在调用前锁定资金 - 事后**核对** —— 记录实际支出 - **可配置的模式** —— `observe`(仅跟踪)、`warn`(记录超支)、`cap`(硬性限制) - **按操作批准** —— 超过阈值(默认:$0.50)时暂停等待确认 - **总预算上限** —— 默认 $10,完全可配置 绝无意外账单。agent 会在花费之前告诉你成本。 ## Agent 兼容性 OpenMontage 适用于任何能够读取文件并执行 Python 的 AI 编程助手。内置了专用的指令文件用于: | 平台 | 配置文件 | |----------|------------| | **Claude Code** | `CLAUDE.md` | | **Cursor** | `CURSOR.md` + `.cursor/rules/` | | **GitHub Copilot** | `COPILOT.md` + `.github/copilot-instructions.md` | | **Codex** | `CODEX.md` | | **Winds** | `.windsurfrules` | 所有平台文件都指向共享的 `AGENT_GUIDE.md`(操作指南和 agent 契约)和 `PROJECT_CONTEXT.md`(架构参考)。 ## 贡献 OpenMontage 的构建初衷就是被扩展。最常见的两种贡献方式是: ### 添加新工具 1. 在相应的 `tools/` 子目录中创建一个 Python 文件 2. 继承 `BaseTool` 并实现工具契约 3. registry 会自动发现它 —— 无需手动注册 4. 如果该工具需要使用指南,请添加技能文件 ### 添加新 Pipeline 1. 在 `pipeline_defs/` 中创建一个 YAML manifest 2. 在 `skills/pipelines//` 中创建阶段导演技能 3. 参考现有的工具 —— 或者如果需要的话添加新工具 有关完整的技术参考,请参见 `docs/ARCHITECTURE.md`;有关完整的 provider 指南(设置、定价、免费层级),请参见 `docs/PROVIDERS.md`;有关 agent 契约,请参见 `AGENT_GUIDE.md`。 ### 加入社区 我们使用 [GitHub Discussions](https://github.com/calesthio/OpenMontage/discussions) 分享作品和想法: - **[展示与分享](https://github.com/calesthio/OpenMontage/discussions/categories/show-and-tell)** —— 分享你制作的视频、效果很好的提示词,或者你发现的创意工作流 - **[想法](https://github.com/calesthio/OpenMontage/discussions/categories/ideas)** —— 推荐新的 pipeline、工具、风格方案或集成 - **[问答](https://github.com/calesthio/OpenMontage/discussions/categories/q-a)** —— 提出有关设置、pipeline 或故障排除的问题 做出了很酷的东西?把它发布在“展示与分享”里 —— 我们很乐意看到你构建了什么。 ## 联系方式 有关更新、发布和幕后构建笔记,请关注 [@calesthioailabs](https://x.com/calesthioailabs)。 对于 bug、功能请求和工作流讨论,请使用 [GitHub Issues](https://github.com/calesthio/OpenMontage/issues) 和 [GitHub Discussions](https://github.com/calesthio/OpenMontage/discussions),以便一切都保持可见且具有可操作性。 ## 测试 ``` # 运行 contract tests(不需要 API keys) make test-contracts # 运行所有测试 make test ``` ## 许可证 [GNU AGPLv3](LICENSE) **OpenMontage** —— 由你的 AI 助手编排的具有真正质量执行的、生产级别的视频。 如果这个项目对你有用,点个 star 对我们意义重大 —— 这有助于其他人也能发现它。
标签:AI助手, AI智能体, MITM代理, 多媒体处理, 生成式AI, 索引, 自动化流水线, 自动化编辑, 视频制作, 调试辅助, 逆向工具