TTT-Video：实现长视频生成的新方法

研究人员最近公开了名为TTT-Video的开源项目，这项技术突破了传统AI视频生成的时长限制，能够生成长达63秒的连贯视频内容。该技术通过创新的Test-Time Training（测试时训练）方法解决了长视频生成过程中的内容一致性问题。

解决视频生成的关键挑战

目前大多数AI视频生成模型只能创建3-5秒的短视频片段。这是因为视频生成使用的Transformer模型在处理长序列时，自注意力机制的计算成本呈二次方增长，导致无法高效处理长视频。

TTT-Video通过创新的方式解决了这一问题：保留原始预训练模型的注意力层用于处理每个3秒片段的局部注意力，同时引入特殊的Test-Time Training层处理全局上下文的长距离关系。

该项目是基于CogVideoX 5B模型（一种用于文本到视频生成的扩散Transformer）进行改进的，主要创新点包括：

TTT-Video模型架构

TTT-Video模型架构：通过TTT层处理全局序列，并与局部注意力机制结合

研究团队以经典动画《猫和老鼠》为测试案例，能够生成风格一致、动作连贯的一分钟左右的动画视频，虽然受限于5B参数量，生成质量还有提升空间。

TTT-Video最令人印象深刻的地方在于它能够一次性生成长达一分钟的《猫和老鼠》风格动画，而且：

《猫和老鼠》风格生成视频示例

TTT-Video生成的《猫和老鼠》风格动画帧示例

这项技术对使用ComfyUI等工具的AI创作者意味着：