Wink Pings

开源视频模型现状:Wan系列停滞不前,LTX 2.3崭露头角

Reddit社区讨论显示,阿里巴巴的Wan视频生成模型开源进程停滞,用户对2.6、2.7版本的开源期待落空。与此同时,LTX 2.3凭借15秒视频生成能力和音频支持获得关注,但提示词理解仍是短板。

![这是一张由两张照片组成的图片,上半部分显示了一个游泳池的场景,有两个人在水中玩耍,其中一个人抱着一个小孩。背景中有围栏和一些树木。下半部分则是在水下拍摄的照片,可以看到一个骨架坐在椅子上,周围有一些水草和其他海底生物。 "OPENSOURCEDMODELS:LLMs&AUDIO" "IMAGEGEN" "VIDEOGEN"](https://wink.run/image?url=https%3A%2F%2Fi.redd.it%2Fag7eecaw7ptg1.png%3Fauto%3Dwebp%26s%3D9c97758da6e4c9168f10624edb9abbee3fe2da83)

开源视频生成模型领域近期出现明显分化。阿里巴巴的Wan系列模型开源进程似乎陷入停滞,引发社区广泛讨论。

有用户指出,Wan 2.2版本虽然能生成5秒视频,但延长视频时长会导致一致性崩溃。更令人失望的是,尽管Wan 2.7版本已经发布,但2.5、2.6等中间版本仍未开源,被用户形容为"用完即弃"。

![这是一张展示ModelScope在Nanjing ModelScope DevCon上的演讲内容的截图。图中有一个大屏幕显示了阿里巴巴坚持干问、万相等系列模型开源的信息,与魔搭社区携手共进。屏幕上列出了多个模型的名称,如Qwen3.0-6B、Qwen3.5-7B等,以及它们的版本号和类型。此外,还提到了累计开源模型数量超过400个,累计模型下载量达到12亿次。在屏幕下方,有一位穿着黑色西装的男士站在舞台上进行演讲。背景是一个舞台灯光效果,整个场景看起来像是在一个会议或展览中心举行的活动中拍摄的。](https://wink.run/image?url=https%3A%2F%2Fi.redd.it%2Fiwxo5xp9iptg1.png%3Fwidth%3D1080%26format%3Dpng%3Fauto%3Dwebp%26s%3Da82522b8295c12b4e3f1de5fdf8ad5488084dd82)

在最近的南京ModelScope开发者大会上,阿里巴巴展示了开源承诺,但用户发现这些承诺主要针对语言模型,视频模型的开源前景依然不明。

与此同时,LTX 2.3开始获得关注。该模型支持15秒视频生成和音频功能,但在提示词理解方面存在明显短板。有用户反映,只要提示内容超出"说话头部"或"唱歌头部"的范畴,就会产生伪影和模型异常。

技术社区出现分化:一部分用户坚持使用img2video工作流,另一部分则开始探索SVI配合关键帧的技术方案。有经验用户表示,LTX 2.3在掌握正确方法后表现相当出色。

硬件配置也成为讨论焦点。Seedance 2虽然效果更好,但需要专业级硬件支持,而LTX 2.3可以在消费级PC上运行,这为更多创作者提供了可能性。

有消息称,阿里巴巴内部可能发生了人事变动,Qwen项目负责人因过于关注研究和开源而被替换,公司战略转向最大化用户基础。这或许解释了近期开源策略的变化。

在语言模型方面,Qwen 3.5 33B/27B和Gemma4在工具调用能力上表现突出,成为本地部署的热门选择。

开源视频模型的发展似乎进入了一个瓶颈期:商业公司对核心技术开源持谨慎态度,而社区驱动的项目在效果和易用性上仍需突破。用户期待更多像LTX这样平衡性能与可访问性的选择出现。

发布时间: 2026-04-07 12:51