一分钟演示视频

点击任何视频以查看用于生成它的文本提示。

摘要

如今,由于自注意力层对于长上下文的处理效率低下,Transformers 仍然难以生成一分钟的视频。诸如 Mamba 层之类的替代方案,由于其隐藏状态的表达能力较弱,在处理复杂的多场景故事时会遇到困难。我们尝试使用 Test-Time Training (TTT) 层,它的隐藏状态本身可以是神经网络,因此更具表现力。将 TTT 层添加到预训练的 Transformer 中,使其能够从文本故事板生成一分钟的视频。为了验证概念,我们整理了一个基于 Tom and Jerry 卡通的数据集。与 Mamba 2、Gated DeltaNet 和滑动窗口注意力层等基线相比,TTT 层生成的故事连贯性更高的视频,在针对每种方法 100 个视频的人工评估中,领先 34 Elo 分。虽然前景广阔,但结果仍然包含瑕疵,这可能是由于预训练的 5B 模型的能力有限。我们实现的效率也可以提高。由于资源限制,我们只尝试了一分钟的视频,但该方法可以扩展到更长的视频和更复杂的故事。

论文 代码

将 TTT 层添加到预训练的 Transformer

将 TTT 层添加到预训练的 Transformer 中,使其能够生成具有强大时间一致性和运动流畅性的一分钟视频。

局部注意力 (Local Attention) 局部注意力在 Tom 的颜色、Jerry 的鼠洞方面的一致性表现不佳,并且会扭曲 Tom 的身体。

TTT-MLP TTT-MLP 在整个视频持续时间内表现出强大的角色和时间一致性。

基线比较

根据人工评估 Elo 分数衡量,TTT-MLP 在时间一致性、运动流畅性和整体美观性方面优于所有其他基线。

TTT-MLP TTT-MLP 在场景变化和角度变化中保持时间一致性。

Gated DeltaNet Gated DeltaNet 在 Tom 的不同角度之间缺乏时间一致性。

Mamba 2 当 Tom 咆哮和追逐 Jerry 时,Mamba 2 会扭曲 Tom 的外貌。

滑动窗口注意力 (Sliding-Window Attention) 滑动窗口注意力会改变厨房环境并复制 Jerry 偷馅饼的行为。

局限性

生成的一分钟视频展示了作为概念验证的明显潜力,但仍然包含明显的瑕疵。

致谢

感谢 Hyperbolic Labs 提供计算支持,感谢 Yuntian Deng 协助运行实验,感谢 Aaryan Singhal、Arjun Vikram 和 Ben Spector 协助解答系统问题。Yue Zhao 感谢 Philipp Krähenbühl 的讨论和反馈。Yu Sun 感谢他的博士生导师 Alyosha Efros 在从事机器学习工作时提出的关于观察像素的深刻建议。

一分钟视频生成 基于 Test-Time Training Karan Dalal*4 Daniel Koceja*2 Gashon Hussein*2 Jiarui Xu*1,3 Yue Zhao†5 Youjin Song†2 Shihao Han1 Ka Chun Cheung1 Jan Kautz1 Carlos Guestrin2 Tatsunori Hashimoto2 Sanmi Koyejo2 Yejin Choi1 Yu Sun1,2 Xiaolong Wang1,3 1NVIDIA 2Stanford University 3UCSD 4UC Berkeley 5UT Austin *Joint first authors †Joint second authors 论文 代码 × 故事梗概 完整提示