Wink Pings

一个AI视频制作系统,成本不到七毛

OpenMontage把AI编程助手变成了视频制作工作室。写几行字,AI自己去做调研、生成素材、配音、剪辑,最后吐出完整视频。最便宜的一个产品广告只要0.69美元,没有API Key也能跑。

## 一个AI视频制作系统,成本不到七毛

做视频这件事,成本正在暴跌。

OpenMontage是一个开源的代理视频制作系统。名字听起来像另一个视频生成工具,但它跟那些"输入文字、吐出视频"的模型完全不是一路货。

它做的事情是:把你的AI编程助手——Claude Code、Cursor、Copilot、Windsurf——变成一个全职视频导演。你用大白话描述想要什么,AI自己去跑调研、写脚本、生成素材、剪辑、渲染。

![OpenMontage项目首页截图](https://wink.run/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FHFQr0R6agAAwSdB%3Fformat%3Djpg%26name%3Dlarge)

先说最刺激的数字:一个产品广告,4张AI生成的图片、TTS配音、免费版权音乐、逐字字幕、Remotion动态效果——总成本0.69美元。没有人工干预任何素材。

这不是概念演示。项目主页上挂了几个成品:

- **"VOID — Neural Interface"**:产品广告,$0.69。用了一张OpenAI的API Key,GPT生成图片,AI配音,自动找版权音乐,WhisperX生成逐字字幕,Remotion做动态数据可视化。

- **"The Last BANANA"**:60秒皮克斯风格动画短片,$1.33。6个Kling v3生成的视频片段,Google Chirp3-HD配音,TikTok风格的逐字字幕。

- **"SIGNAL FROM TOMORROW"**:科幻电影预告片,完全由OpenMontage生产:概念、脚本、分镜、Veo生成的运动片段、配乐、Remotion合成。

### 它怎么工作的

传统AI视频工具给你一个片段,剩下的你自己拼。OpenMontage给的是一条流水线。

**第一步:调研**。在写一个字之前,AI先跑15到25次搜索,翻YouTube、Reddit、新闻站点、学术资料。它要把 topic 吃透,而不是凭幻觉硬编。

**第二步:选供应商**。系统里绑了12个视频生成商(Kling、Runway Gen-4、Google Veo 3、MiniMax、本地GPU的WAN 2.1、Hunyuan、CogVideo……),9个图片生成商(FLUX、Google Imagen 4、DALL-E 3、Stable Diffusion本地版……),4个TTS提供商(ElevenLabs、Google TTS 700+语音、OpenAI、Piper离线免费)。每个选择都经过7维度评分:任务匹配度、输出质量、控制力、可靠性、成本、延迟、连贯性。选完了还记录决策日志,告诉你为什么选这个不选那个。

**第三步:执行**。AI读YAML配置文件知道要跑什么阶段,读Markdown技能文件知道每个阶段怎么执行,调Python工具生成素材,自己做一轮质量检查,checkpoint保存状态,然后等你批准。

**第四步:渲染**。Remotion是基于React的视频合成引擎,负责把静态图片变成带弹簧物理效果、转场、动画字幕的成品。

### 成本控制是认真的

系统里内置了预算治理:

- 执行前先估成本

- 单次操作超过$0.50要你确认

- 总预算硬上限默认$10,可配置

- 三种模式:只记录、超支报警、硬性封顶

这就避免了AI放飞自我烧光你信用卡的情况。

### 零API Key也能跑

这是最狠的一点。什么都不配置,装好环境直接跑,AI会用:

- **Piper**:离线免费的TTS,效果还真不差

- **Pexels + Pixabay**:免费版权图片和视频素材

- **Remotion**:把静态图片动画化,配字幕、转场、标题

一条完整视频,零成本生成。 加API Key只是为了解锁AI生成的视频片段和图片。

### 不是什么

它不是又一个Sora或Runway。视频生成只是它能力的一部分,而且是可选的。它更像是一个**视频制作的工作流操作系统**,把传统视频团队做的事情拆解成11条流水线:动画解说、动画短片、虚拟主播、电影感预告、批量剪辑、混合素材、本地化配音、播客转视频、屏幕录制演示、真人出镜……

每个流水线对应一个YAML配置,每个阶段对应一个Markdown技能文件。400多个技能文件,手把手教AI怎么调研、怎么写脚本、怎么选素材、怎么调参数。

### 值得注意的

几个点:

1. **质量门控是认真的**。渲染前做预检查,防止"动画PPT"出来。渲染后做自检,ffprobe验证、抽帧检查黑帧和坏覆盖、分析音频电平、看承诺是否兑现。不过关就不给你看。

2. **不绑死供应商**。想换哪家AI就换哪家,评分器会自动重新打分选最优的。没有厂商锁定这套破事。

3. **本地GPU支持**。有显卡的话,可以跑WAN 2.1、Hunyuan、CogVideo、LTX-Video,完全免费生成视频。

4. **参考视频驱动**。扔一个YouTube Short链接进去,AI分析它的节奏、钩子、结构,然后给你出3个原创变体。不是让你凭空写提示词,是让AI帮你"抄作业"再"改作业"。

### 怎么看

Guri Singh在评论区说了一句话:"这感觉像是内容制作不再是一个团队运动,而变成一个人从头跑到尾的东西。"

确实有点这个意思。一个系统,把调研、脚本、素材生成、配音、剪辑、字幕、版权音乐全部包了。成本压到几毛钱。

但它解决的不只是成本问题。真正的变化是**工作流的可编程性**——视频制作不再是一群人的协作,而是一段prompt的执行。

对做内容的人来说,这意味着你可以快速验证想法。一个想法丢进去,几分钟后看到一个粗糙但完整的视频成品。改prompt,再跑一次。不满意就调,直到能看。

当然,距离"取代专业团队"还有距离。复杂品牌片、精确控制的商业广告,还是需要人。但对于解释类内容、社交媒体切片、产品演示、概念验证——这已经够用了,而且便宜到可以随意跑。

项目开源,AGPL v3。GitHub上搜calesthio/OpenMontage就能找到。

发布时间: 2026-04-07 15:31