共计 2677 个字符,预计需要花费 7 分钟才能阅读完成。
在 OpenAI Sora 的技术负责人转投 Google 之际,有多方报道指出,OpenAI Sora 在内部因质量问题面临重大挑战。与此同时,Meta 毫不留情地推出了其视频生成模型“Movie Gen”,并通过一套完整的评测体系声称自己在某种程度上超越了 Sora。

更具攻击性的是,尽管该模型目前尚未对外开放,Meta 依然选择公开了长达 95 页的技术报告(虽然未开源,但细节丰富),并明确宣称:
此模型不仅在效果上超越了 Sora,更采用了全新的技术路径——这表明 Sora 的技术方案已不再是业界最前沿。
各位从事文生视频的开发者们,不要继续模仿 Sora 了。
“媒体基础模型”
实际上,Meta 发布了一系列模型,专门为“AI 生成媒体内容”而设计。这也是该技术论文标题所表达的内涵:Movie Gen: A Cast of Media Foundation Models。

该系列模型包括:
最大的文生视频生成模型 Movie Gen Video,参数量达到 300 亿。
最大的音频生成模型 Movie Gen Audio,拥有 130 亿参数。
进一步对 Movie Gen Video 模型进行后训练而得的 Personalized Movie Gen Video,可根据用户面部生成个性化视频。此外,还有一种新颖的后训练过程,生成 Movie Gen Edit,用于精确的视频编辑。
[视频内容] 本文包含视频内容
这些模型结合后,能够创建最高 16 秒的逼真个性化高清视频(16 FPS)以及 48kHz 音频,并具备编辑真实或生成视频的能力。
用户体验的功能包括:
视频生成:用户通过文本提示可以生成高清(1080p)的视频,时长最长可达 16 秒,帧率最高可达 16fps。该模型能很好地捕捉主体与客体的关系、物流规律以及摄像机的各种运动。
个性化视频生成:用户可以上传自己的图像,并结合文本提示,使自己出现在个性化生成的视频中。
精准视频编辑:这是 Meta 重点推广的功能,除了能够整体修改背景和风格外,Movie Gen 还提供通过文本指令来添加、移除或替换元素的局部编辑功能。当前视频生成产品在精确编辑能力上的不足,是一大痛点。
音频生成:Movie Gen 不仅能够根据视频内容和文本指令生成高质量的音效和音乐,还能实现与视频内容的高度匹配和同步。这些音频最长可达 45 秒,Meta 还表示其音频模型可以生成任意长度视频的连贯音频。
这是展示的一系列案例:
[视频内容] 本文包含视频内容
不再依赖 DiT,Llama 带来新奇迹!
在这其中,文生视频的部分显然至关重要。
根据论文所述,Movie Gen Video 是一个拥有 300 亿参数的基础模型,旨在联合文本生成图像和视频,能够生成符合文本提示的高质量高清视频,时长最长可达 16 秒。该模型能够自然生成多种纵横比、分辨率和时长的高质量图像与视频。它通过联合预训练,处理了约 1 亿个视频和约 10 亿张图像,从“观看”视频中学习视觉世界。
这只是基础介绍,而最重要的信息在于,它 不再是基于 DiT 架构的模型,显著区别于目前几乎所有知名的文生视频模型架构。
正如 Meta 视频生成团队的研究科学家 Andrew Brown 所言,这个项目最大的发现是:数据、算力和模型参数是至关重要的。若将其与 Flow Matching 相结合,就能够使用最简单、最流行的架构——即 Meta 自家的 Llama,实现强大的视频模型。

这一策略明显是针对 Sora 自诞生以来,成为文生视频创业公司和大型项目主流的 DiT 路线。
在今天的视频生成技术中,扩散模型已成为主流思路。简单来说,它通过逐步将噪声还原为图像或视频,生成过程本质上是去噪的过程。具体而言,扩散模型的生成过程通常始于随机噪声,逐步反向推导出与输入文本描述一致的清晰视频帧。而 DiT 则将 Transformer 的能力引入这一思路,以更好地捕捉全局上下文信息,核心思想依然是扩散。
然而,Flow Matching 并未从扩散过程出发进行训练,而是采取更为“直接”的方式,寻找更为抽象的“捷径”,而非一一追寻过程中的细节:
Flow Matching 基于轨迹学习,直接在潜在空间中建立从输入噪声到目标视频序列的映射轨迹。它通过优化一个连续的 ODE(常微分方程)系统,寻找从初始随机分布到目标分布的最佳“路径”。
Meta 这次将 Flow Matching 直接整合到 Llama 架构中,首次完全摆脱扩散思路,成功超越了 DiT 路线的一系列代表性模型。

实现这一效果,自然离不开强有力的配套方法。
根据 Meta 的研究论文,他们动用了多达 6144 个 H100 GPU 进行媒体生成模型的训练,每个 GPU 的功率为 700W TDP,配备 80GB HBM3,并采用 Meta 的 Grand Teton AI 服务器平台(Baumgartner 和 Bowman,2022)。每台服务器内有八个 GPU 通过 NVSwitch 均匀连接,服务器间 GPU 则通过 400Gbps RoCE RDMA 网卡相互连接。训练任务由 Meta 全球规模训练调度器 Mast 进行调度。
扎克伯格的那些显卡正是用于此。
此外,在这篇详尽的论文中,Meta 还介绍了模型各个环节的多个创新技巧。例如时空自动编码器(Temporal Autoencoder, TAE),通过该技术将视频和图像编码到压缩的时空潜在空间,显著减少生成视频时的计算负担。这些技术使 Meta 能够“使用更通用的架构来处理媒体生成任务”,并将图像与视频生成统一起来。
简而言之,Movie Gen 通过 Llama 的强大能力,成功战胜了 Sora 的路线。

在 Meta 对此次模型的宣传中,显然有一个明显的意图:在证明 Sora 路线并非最佳选择后,希望更多开发者能基于 Llama 进行文生视频模型的开发与研究。这显然对 Meta 的开源战略至关重要。
有趣的是,Meta 此次的“模型家族”并不仅仅追求榜单和评测的表现,它还明确展现出实践导向,这使其可能不会走向开源之路,其目标在于用于 Meta 自家的社交媒体平台,甚至是 Orion 所代表的下一代计算生态。
在 Meta 的官方博客中提到:
想象一下,您可以通过文字提示制作并编辑一个“日常生活”的动画视频,并分享至 Reels,或者为朋友定制一个个性化的生日动画祝福,通过 WhatsApp 发送给他们。随着创造力和自我表达的自由,可能性将是无限的。