Meta推出“最强视频模型”，Sora是否已成过往？Llama助力新突破！

共计 2677 个字符，预计需要花费 7 分钟才能阅读完成。

在 OpenAI Sora 的技术负责人转投 Google 之际，有多方报道指出，OpenAI Sora 在内部因质量问题面临重大挑战。与此同时，Meta 毫不留情地推出了其视频生成模型“Movie Gen”，并通过一套完整的评测体系声称自己在某种程度上超越了 Sora。

更具攻击性的是，尽管该模型目前尚未对外开放，Meta 依然选择公开了长达 95 页的技术报告（虽然未开源，但细节丰富），并明确宣称：

此模型不仅在效果上超越了 Sora，更采用了全新的技术路径——这表明 Sora 的技术方案已不再是业界最前沿。

各位从事文生视频的开发者们，不要继续模仿 Sora 了。

“媒体基础模型”

实际上，Meta 发布了一系列模型，专门为“AI 生成媒体内容”而设计。这也是该技术论文标题所表达的内涵：Movie Gen: A Cast of Media Foundation Models。

该系列模型包括：

最大的文生视频生成模型 Movie Gen Video，参数量达到 300 亿。

最大的音频生成模型 Movie Gen Audio，拥有 130 亿参数。

进一步对 Movie Gen Video 模型进行后训练而得的 Personalized Movie Gen Video，可根据用户面部生成个性化视频。此外，还有一种新颖的后训练过程，生成 Movie Gen Edit，用于精确的视频编辑。

[视频内容] 本文包含视频内容

这些模型结合后，能够创建最高 16 秒的逼真个性化高清视频（16 FPS）以及 48kHz 音频，并具备编辑真实或生成视频的能力。

用户体验的功能包括：

视频生成：用户通过文本提示可以生成高清（1080p）的视频，时长最长可达 16 秒，帧率最高可达 16fps。该模型能很好地捕捉主体与客体的关系、物流规律以及摄像机的各种运动。

个性化视频生成：用户可以上传自己的图像，并结合文本提示，使自己出现在个性化生成的视频中。

精准视频编辑：这是 Meta 重点推广的功能，除了能够整体修改背景和风格外，Movie Gen 还提供通过文本指令来添加、移除或替换元素的局部编辑功能。当前视频生成产品在精确编辑能力上的不足，是一大痛点。

音频生成：Movie Gen 不仅能够根据视频内容和文本指令生成高质量的音效和音乐，还能实现与视频内容的高度匹配和同步。这些音频最长可达 45 秒，Meta 还表示其音频模型可以生成任意长度视频的连贯音频。

这是展示的一系列案例：

[视频内容] 本文包含视频内容

不再依赖 DiT，Llama 带来新奇迹！

在这其中，文生视频的部分显然至关重要。

根据论文所述，Movie Gen Video 是一个拥有 300 亿参数的基础模型，旨在联合文本生成图像和视频，能够生成符合文本提示的高质量高清视频，时长最长可达 16 秒。该模型能够自然生成多种纵横比、分辨率和时长的高质量图像与视频。它通过联合预训练，处理了约 1 亿个视频和约 10 亿张图像，从“观看”视频中学习视觉世界。

这只是基础介绍，而最重要的信息在于，它 不再是基于 DiT 架构的模型，显著区别于目前几乎所有知名的文生视频模型架构。

正如 Meta 视频生成团队的研究科学家 Andrew Brown 所言，这个项目最大的发现是：数据、算力和模型参数是至关重要的。若将其与 Flow Matching 相结合，就能够使用最简单、最流行的架构——即 Meta 自家的 Llama，实现强大的视频模型。

这一策略明显是针对 Sora 自诞生以来，成为文生视频创业公司和大型项目主流的 DiT 路线。

在今天的视频生成技术中，扩散模型已成为主流思路。简单来说，它通过逐步将噪声还原为图像或视频，生成过程本质上是去噪的过程。具体而言，扩散模型的生成过程通常始于随机噪声，逐步反向推导出与输入文本描述一致的清晰视频帧。而 DiT 则将 Transformer 的能力引入这一思路，以更好地捕捉全局上下文信息，核心思想依然是扩散。

然而，Flow Matching 并未从扩散过程出发进行训练，而是采取更为“直接”的方式，寻找更为抽象的“捷径”，而非一一追寻过程中的细节：

Flow Matching 基于轨迹学习，直接在潜在空间中建立从输入噪声到目标视频序列的映射轨迹。它通过优化一个连续的 ODE（常微分方程）系统，寻找从初始随机分布到目标分布的最佳“路径”。

Meta 这次将 Flow Matching 直接整合到 Llama 架构中，首次完全摆脱扩散思路，成功超越了 DiT 路线的一系列代表性模型。

实现这一效果，自然离不开强有力的配套方法。

根据 Meta 的研究论文，他们动用了多达 6144 个 H100 GPU 进行媒体生成模型的训练，每个 GPU 的功率为 700W TDP，配备 80GB HBM3，并采用 Meta 的 Grand Teton AI 服务器平台（Baumgartner 和 Bowman，2022）。每台服务器内有八个 GPU 通过 NVSwitch 均匀连接，服务器间 GPU 则通过 400Gbps RoCE RDMA 网卡相互连接。训练任务由 Meta 全球规模训练调度器 Mast 进行调度。

扎克伯格的那些显卡正是用于此。

此外，在这篇详尽的论文中，Meta 还介绍了模型各个环节的多个创新技巧。例如时空自动编码器（Temporal Autoencoder, TAE），通过该技术将视频和图像编码到压缩的时空潜在空间，显著减少生成视频时的计算负担。这些技术使 Meta 能够“使用更通用的架构来处理媒体生成任务”，并将图像与视频生成统一起来。

简而言之，Movie Gen 通过 Llama 的强大能力，成功战胜了 Sora 的路线。