尽管 MultiTalk 模型能够生成高质量的短视频(例如 3-5 秒),但这对于实际应用场景(如制作电影片段、直播内容)来说远远不够,因为这些场景通常需要持续更长的视频在线课堂。为了突破单次生成长度的限制,MultiTalk 引入了一种基于自回归(Autoregressive)的方法来生成长视频。将之前生成视频的末尾部分作为条件,来生成新的视频片段,从而实现时间上的连续性和扩展。
在具体的实现机制上,传统的图像到视频(I2V)模型通常只使用视频的第一帧作为生成后续帧的条件在线课堂。MultiTalk 在此基础上进行了关键改进。在生成新的视频片段时,它不再仅仅依赖第一帧,而是将先前已生成视频的最后 5 帧作为额外的条件输入到当前的推理步骤中。这使得模型能够 "记住" 并延续之前的动作和场景状态。这些作为条件的 5 帧视频,首先会通过 3D VAE 进行压缩,将其转化为更紧凑的 2 帧潜在噪声表示。随后,为了匹配 DiT 模型的输入格式,新的视频帧(除了从历史信息得来的 2 帧潜在噪声)会用零填充。这些填充的帧、来自历史信息的潜在噪声以及一个视频掩码被拼接在一起,形成完整的输入。最终,这个包含历史上下文信息的输入被送入 DiT 模型进行推理,生成新的视频片段。下面视频展示了生成结果的流畅性。
输入图像 + 对话语音