开源视频模型现状:Wan系列停滞不前,LTX 2.3崭露头角
Reddit社区讨论显示,阿里巴巴的Wan视频生成模型开源进程停滞,用户对2.6、2.7版本的开源期待落空。与此同时,LTX 2.3凭借15秒视频生成能力和音频支持获得关注,但提示词理解仍是短板。

开源视频生成模型领域近期出现明显分化。阿里巴巴的Wan系列模型开源进程似乎陷入停滞,引发社区广泛讨论。
有用户指出,Wan 2.2版本虽然能生成5秒视频,但延长视频时长会导致一致性崩溃。更令人失望的是,尽管Wan 2.7版本已经发布,但2.5、2.6等中间版本仍未开源,被用户形容为"用完即弃"。

在最近的南京ModelScope开发者大会上,阿里巴巴展示了开源承诺,但用户发现这些承诺主要针对语言模型,视频模型的开源前景依然不明。
与此同时,LTX 2.3开始获得关注。该模型支持15秒视频生成和音频功能,但在提示词理解方面存在明显短板。有用户反映,只要提示内容超出"说话头部"或"唱歌头部"的范畴,就会产生伪影和模型异常。
技术社区出现分化:一部分用户坚持使用img2video工作流,另一部分则开始探索SVI配合关键帧的技术方案。有经验用户表示,LTX 2.3在掌握正确方法后表现相当出色。
硬件配置也成为讨论焦点。Seedance 2虽然效果更好,但需要专业级硬件支持,而LTX 2.3可以在消费级PC上运行,这为更多创作者提供了可能性。
有消息称,阿里巴巴内部可能发生了人事变动,Qwen项目负责人因过于关注研究和开源而被替换,公司战略转向最大化用户基础。这或许解释了近期开源策略的变化。
在语言模型方面,Qwen 3.5 33B/27B和Gemma4在工具调用能力上表现突出,成为本地部署的热门选择。
开源视频模型的发展似乎进入了一个瓶颈期:商业公司对核心技术开源持谨慎态度,而社区驱动的项目在效果和易用性上仍需突破。用户期待更多像LTX这样平衡性能与可访问性的选择出现。
发布时间: 2026-04-07 12:51