Wink - AI原生创新，忠于用户，专属智能体验

## 一个AI视频制作系统，成本不到七毛

做视频这件事，成本正在暴跌。

OpenMontage是一个开源的代理视频制作系统。名字听起来像另一个视频生成工具，但它跟那些"输入文字、吐出视频"的模型完全不是一路货。

它做的事情是：把你的AI编程助手——Claude Code、Cursor、Copilot、Windsurf——变成一个全职视频导演。你用大白话描述想要什么，AI自己去跑调研、写脚本、生成素材、剪辑、渲染。

![OpenMontage项目首页截图](https://wink.run/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FHFQr0R6agAAwSdB%3Fformat%3Djpg%26name%3Dlarge)

先说最刺激的数字：一个产品广告，4张AI生成的图片、TTS配音、免费版权音乐、逐字字幕、Remotion动态效果——总成本0.69美元。没有人工干预任何素材。

这不是概念演示。项目主页上挂了几个成品：

- **"VOID — Neural Interface"**：产品广告，$0.69。用了一张OpenAI的API Key，GPT生成图片，AI配音，自动找版权音乐，WhisperX生成逐字字幕，Remotion做动态数据可视化。

- **"The Last BANANA"**：60秒皮克斯风格动画短片，$1.33。6个Kling v3生成的视频片段，Google Chirp3-HD配音，TikTok风格的逐字字幕。

- **"SIGNAL FROM TOMORROW"**：科幻电影预告片，完全由OpenMontage生产：概念、脚本、分镜、Veo生成的运动片段、配乐、Remotion合成。

### 它怎么工作的

传统AI视频工具给你一个片段，剩下的你自己拼。OpenMontage给的是一条流水线。

**第一步：调研**。在写一个字之前，AI先跑15到25次搜索，翻YouTube、Reddit、新闻站点、学术资料。它要把 topic 吃透，而不是凭幻觉硬编。

**第二步：选供应商**。系统里绑了12个视频生成商（Kling、Runway Gen-4、Google Veo 3、MiniMax、本地GPU的WAN 2.1、Hunyuan、CogVideo……），9个图片生成商（FLUX、Google Imagen 4、DALL-E 3、Stable Diffusion本地版……），4个TTS提供商（ElevenLabs、Google TTS 700+语音、OpenAI、Piper离线免费）。每个选择都经过7维度评分：任务匹配度、输出质量、控制力、可靠性、成本、延迟、连贯性。选完了还记录决策日志，告诉你为什么选这个不选那个。

**第三步：执行**。AI读YAML配置文件知道要跑什么阶段，读Markdown技能文件知道每个阶段怎么执行，调Python工具生成素材，自己做一轮质量检查，checkpoint保存状态，然后等你批准。

**第四步：渲染**。Remotion是基于React的视频合成引擎，负责把静态图片变成带弹簧物理效果、转场、动画字幕的成品。

### 成本控制是认真的

系统里内置了预算治理：

- 执行前先估成本

- 单次操作超过$0.50要你确认

- 总预算硬上限默认$10，可配置

- 三种模式：只记录、超支报警、硬性封顶

这就避免了AI放飞自我烧光你信用卡的情况。

### 零API Key也能跑

这是最狠的一点。什么都不配置，装好环境直接跑，AI会用：

- **Piper**：离线免费的TTS，效果还真不差

- **Pexels + Pixabay**：免费版权图片和视频素材

- **Remotion**：把静态图片动画化，配字幕、转场、标题

一条完整视频，零成本生成。加API Key只是为了解锁AI生成的视频片段和图片。

### 不是什么

它不是又一个Sora或Runway。视频生成只是它能力的一部分，而且是可选的。它更像是一个**视频制作的工作流操作系统**，把传统视频团队做的事情拆解成11条流水线：动画解说、动画短片、虚拟主播、电影感预告、批量剪辑、混合素材、本地化配音、播客转视频、屏幕录制演示、真人出镜……

每个流水线对应一个YAML配置，每个阶段对应一个Markdown技能文件。400多个技能文件，手把手教AI怎么调研、怎么写脚本、怎么选素材、怎么调参数。

### 值得注意的

几个点：

1. **质量门控是认真的**。渲染前做预检查，防止"动画PPT"出来。渲染后做自检，ffprobe验证、抽帧检查黑帧和坏覆盖、分析音频电平、看承诺是否兑现。不过关就不给你看。

2. **不绑死供应商**。想换哪家AI就换哪家，评分器会自动重新打分选最优的。没有厂商锁定这套破事。

3. **本地GPU支持**。有显卡的话，可以跑WAN 2.1、Hunyuan、CogVideo、LTX-Video，完全免费生成视频。

4. **参考视频驱动**。扔一个YouTube Short链接进去，AI分析它的节奏、钩子、结构，然后给你出3个原创变体。不是让你凭空写提示词，是让AI帮你"抄作业"再"改作业"。

### 怎么看

Guri Singh在评论区说了一句话："这感觉像是内容制作不再是一个团队运动，而变成一个人从头跑到尾的东西。"

确实有点这个意思。一个系统，把调研、脚本、素材生成、配音、剪辑、字幕、版权音乐全部包了。成本压到几毛钱。

但它解决的不只是成本问题。真正的变化是**工作流的可编程性**——视频制作不再是一群人的协作，而是一段prompt的执行。

对做内容的人来说，这意味着你可以快速验证想法。一个想法丢进去，几分钟后看到一个粗糙但完整的视频成品。改prompt，再跑一次。不满意就调，直到能看。

当然，距离"取代专业团队"还有距离。复杂品牌片、精确控制的商业广告，还是需要人。但对于解释类内容、社交媒体切片、产品演示、概念验证——这已经够用了，而且便宜到可以随意跑。

项目开源，AGPL v3。GitHub上搜calesthio/OpenMontage就能找到。