Wink Pings

Wan 2.2与LTX 2.3结合:图片变视频还能自动配语音

有开发者将Wan 2.2图片转视频工作流与LTX 2.3语音生成工作流结合,实现从静态图片到带语音视频的完整自动化流程。

![ComfyUI工作流界面截图](https://preview.redd.it/qnw6g3or470h1.png?width=1920&format=png&auto=webp&s=ba7e3553407e018aad5a2193e404cbeeb7fde7bb)

开发者ussaaron在Reddit上分享了一个结合Wan 2.2和LTX 2.3的工作流方案。这个方案能够将静态图片转换为视频,并自动添加语音和音效。

工作流程分为两步:首先使用Wan 2.2将图片转换为视频,然后通过LTX 2.3为视频添加音频和语音。演示案例中,一张女性站在游艇旁手持香槟的图片被转换为视频,视频中人物将香槟瓶砸向游艇完成命名仪式,同时系统自动添加了瓶子破碎的音效和人物语音。

*Wan 2.2生成的视频片段*

*LTX 2.3添加音效和语音后的完整视频*

工作流文件已上传至Hugging Face:[https://huggingface.co/ussaaron/workflows/blob/main/wan2_2_i2v-with-ltx-id-lora.json](https://huggingface.co/ussaaron/workflows/blob/main/wan2_2_i2v-with-ltx-id-lora.json)

有网友询问该流程是否可以通过循环实现视频的无限延伸。作者回复称可以100%实现,建议在循环中添加视觉质量控制环节,使用Qwen 3.5或Gemma 4等模型观察输出结果并生成新的提示词,然后进入下一轮循环。

这种结合方案展示了AI视频生成技术的进步,从单一功能向完整工作流程发展。用户不再需要手动在不同工具间切换,一个流程就能完成从图片到带语音视频的完整制作。

发布时间: 2026-05-10 07:34