清华新崛起的Sora大模型：融资数亿，成果被OpenAI和苹果青睐！

共计 4862 个字符，预计需要花费 13 分钟才能阅读完成。

作者 | ZeR0
编辑 | 漠影

50 多天前，Sora 的问世在科技界引起了不小的轰动，成为了一堂激发全球视频创作想象力的重要课程。

在国内，类似 Sora 的创业公司也开始活跃，仅在过去一个月内，便有多家专注于 AI 视频生成的创业团队传来了好消息：

3 月 11 日，爱诗科技 宣布完成了数亿元人民币的 A1 轮融资，并开始了爱诗视频大模型的内测；3 月 12 日，生数科技 获得了数亿元投资，参与者包括智谱 AI 与百度风投等；3 月 18 日，潞晨科技 发布了涵盖所有训练细节及模型权重的 Open-Sora 开源方案；3 月 26 日，字节跳动 旗下的剪映 Dreamina 也开启了内测……

每家公司都拥有令人振奋的“全球第一”的标签。

全球首个 Diffusion Transformer 架构论文出自生数科技团队，而爱诗科技的海外产品 PixVerse 则被誉为 用户量最多 的国产 AI 视频生成产品，潞晨科技则开源了 全球首个 类 Sora 架构的视频生成模型。

▲截至 2024 年 3 月，国内主要类 Sora 创企融资历程（数据

根据公开的融资数据，生数科技是目前国内 融资总额与估值最高 的类 Sora 公司。

该公司背后的投资方阵容相当强大，百度风投 多次注资，大模型独角兽 智谱 AI首次参与投资。蚂蚁集团 及创始团队的主要成员多来自于原字节跳动的投资团队 锦秋基金，他们选择了生数作为大模型领域的“首秀”。

这个团队源自清华大学人工智能研究院，凭借其基础架构与 Sora 团队不相上下，在 3D 生成模型领域也能与 OpenAI、谷歌和英伟达竞争，其技术成果已被 OpenAI、苹果及 Stability AI 等用于 DALL·E 2 和 Stable Diffusion 等模型中。

在一次近期的小型交流会上，生数科技的联合创始人及 CEO 唐家渝告诉智东西等媒体，目前国内外的 AI 视频生成技术相差不大，追赶 Sora 对国内团队而言比 2023 年追赶 GPT- 4 要容易得多，生数科技有信心在今年达到 Sora 当前版本的效果。

一、清华计算机系师生创业，科研成果“撞车”Sora 基础架构

在国内 AI 大模型竞争中，清华系的人才如星辰般闪耀。

根据智东西的数据，从 2017 年到 2023 年，至少有 29 位清华的教授及校友积极参与创业，致力于大模型相关领域的发展。（清华系在中国大模型创业中占据重要地位）

▲清华大模型创业精英汇总（智东西整理，如有遗漏欢迎指正或补充）

在这些团队中，生数科技作为多模态通用大模型的代表之一，其技术架构被称为“最接近 Sora 的中国团队”。

这一切的背后，离不开他们的首席科学家朱军教授的努力。

朱军教授在清华大学已经耕耘了超过 20 年，2001 年入学于清华计算机系，2009 年获得博士学位，师从中国人工智能领域的奠基人张钹院士，自 2011 年起在清华任教，成为该校最年轻的长聘正教授之一，并且在 CS Rankings 的机器学习领域中名列亚洲首位。

▲生数科技的首席科学家朱军教授

2018 年，清华大学人工智能研究院成立，张钹院士担任院长，年已 83 岁，朱军则在 35 岁时担任副院长。同年 7 月，朱军支持其学生田天创办了名为 瑞莱智慧 RealAI的第三代 AI 基础设施公司，并与张院士共同担任首席科学家。

四年后，生数科技与 Sora 的联系逐渐显现。

在 2022 年 9 月，朱军教授的研究小组提交了一篇论文，提出了将视觉 Transformer 与扩散模型结合的网络架构 U-ViT；而两个月后，加州大学伯克利分校的 William (Bill) Peebles 及华人学者谢赛宁在 Meta FAIR 实验室合作撰写并提交了名为DiT 的论文，探讨了扩散 Transformer 架构，且与 U -ViT 在具体实验路径上保持一致。

在当年的计算机视觉顶级会议 CVPR 2023 中，U-ViT 论文被收录，而 DiT 论文则因“缺乏创新”被拒稿，后者则成功入选另一个重要会议 ICCV 2023。

▲左侧为清华 U -ViT 论文，右侧为 DiT 论文

如今，Sora 视频生成模型和 Stable Diffusion 3 文生图模型的问世，均是在 DiT 的基础上取得的突破，震撼了全球。

2022 年底，Bill Peebles 加入 OpenAI，并带领一个由十多位成员组成的精英团队，专注于在 DiT 架构下开发 Sora 视频生成模型。Bill 曾向同为 DiT 论文作者的谢赛宁透露，Sora 团队“几乎每天都在高强度工作，几乎没时间休息”。

综合考虑计算能力及技术的成熟程度，清华团队决定 首先将 U -ViT 应用于二维图像生成，然后逐步扩展到三维及视频任务。

在 2023 年 3 月，朱军教授的研究小组开源了拥有 9.5 亿参数的多模态扩散大模型 UniDiffuser，该模型基于 U -ViT 架构实现图文跨模态生成，相较于今年 2 月发布的 Stable Diffusion 3，领先近一年。

开源链接：
http://github.com/thu-ml/unidiffuser

同样在 3 月，生数科技由瑞莱智慧 RealAI、蚂蚁与百度风投联合创办，曾在清华计算机系学习的 2006 级校友、前瑞莱智慧副总裁唐家渝担任 CEO，师从朱军教授的清华博士鲍凡出任 CTO，而朱军教授成为首席科学家。

经历了半年多的多模态大模型研发，生数科技团队预见 2024 年视频生成将爆发，但 Sora 的发布却让他们感到意外。“这比我们的预期提前了近半年。”唐家渝回忆称。

2024 年 1 月 19 日，生数科技推出其视觉创意平台 PixWeaver，新增文生视频功能，用户只需输入简单文本即可生成视频，支持最高 1024*1024 的分辨率。当时 PixWeaver 的画面质量已达国际一流水平，但仍面临时长短及画面卡顿等问题。

▲在今年 1 月展示文生视频功能时所生成的视频效果

一个月之后，视频生成模型 Sora 的推出，以其强大的信息承载能力、3D 一致性以及对物理规律的初步理解，带来了长达 60 秒的视频，彻底点燃了 AI 视频生成的热潮，并给行业带来了前所未有的压力。

二、“大一统”的多模态底层架构，让复杂任务由单一模型生成

在前沿架构研究领域，清华团队占据了先机。

然而，OpenAI 在全局操控方面更具优势，不论是卓越的研发能力，还是教科书般的发布与营销节奏，都令其他 AI 团队自愧不如。

依靠微软雄厚的资源支持，从 ChatGPT 的发布到处理权力更迭事件，OpenAI 逐步将其高管与研发人员打造成 AI 领域的明星。

国内的企业展现出了强烈的学习热情，一些公司在积极发展研发工作和产品创新，而另一些则善于讲述故事，制造话题。

生数科技似乎并没有表现出强烈的“功利心”。在与唐家渝的讨论中，生数没有将自己标榜为“中国版 Sora”的强劲竞争者，而是将重点放在技术创新和研究突破上。虽然视频生成无疑是一个重要领域，但 3D 生成和图像生成 同样是生数科技的优势所在。

▲多个图生 3D 模型快速拼装搭建的 3D 场景

▲短视频生成案例

OpenAI 推出了多种不同功能的模型，例如 GPT-4（文本 - 文本）、DALL·E 3（文本 - 图像）、GPT-4V（文本与图像 - 文本）等。

生数科技选择了原生多模态大模型技术路径，通过 同一 U -ViT 底层架构的持续应用，旨在实现一个通用模型，以完成图像、3D、视频等多种复杂生成任务。

在 3D 生成领域，生数科技在成立仅 3 个月时便公开挑战业界顶尖模型 OpenAI Shap-E、谷歌 DreamFusion 和英伟达 Magic3D，宣称其在几何结构精度、纹理细节和分辨率等方面的 3D 生成效果已经“大幅领先”，接近产业级应用。目前，它可以实现 最快 10 秒内生成 3D 模型，并支持文生 3D 和图生 3D，还在国际上首次推出基于骨骼动画的 4D 动画生成框架。

▲4D 动画生成框架 AnimatableDreamer 能够将 2D 视频素材一键转化为动态立体模型（论文地址：
https://arxiv.org/pdf/2312.03795.pdf）

三、训练速度在半年内提升 40 倍，预计今年能赶上 Sora 的水平

唐家渝坦承，当前其他视频生成模型与 Sora 相比，差距依然较大。

他表示，如今国内团队追赶 Sora 比去年追逐 GPT- 4 要容易得多 ，因为当前并未形成明显的领先或垄断局面。他坚信 在当前版本上追赶 Sora 的水平，所需的时间不会很长，必定能在今年实现，但具体要花费一两个月还是半年的时间却难以准确预测。

唐家渝之所以如此自信，是基于充分的准备和实力。

多模态大模型对参数数量的需求并没有语言模型那么高，但成本依然是个挑战，因此在算法层面需要进行大量的优化，这对基础研发能力提出了较高的要求。他预计，AI 视频生成领域将逐渐集中在几家企业身上。

生数科技对于底层架构的了解深入，且在多次训练和调优过程中积累了丰富的经验，形成了高效的算法和工程化流程，包括如何在大规模 GPU 集群上实现高效、低成本的模型训练。

在图像生成模型的训练方面，该团队在短短半年内将训练速度提升了40 倍。

算力方面，资源被视为主要限制因素。Sora 的成功证明了长视频生成的可行性，消除了在这一领域投入资源的顾虑。倘若一开始便从零开始模仿 Sora 的做法，所需投入将达到数万张 A100 或 A800 显卡。然而，经过对 AI 基础设施的优化，现阶段所需的算力和成本已显著降低。

数据方面，生数科技构建了一整套自动化的数据管理和应用体系。其多模态大模型的训练数据主要来源于广泛的互联网公开数据和合作伙伴所提供的私有数据。

人才方面，生数科技的团队现有超过 70 名成员，其中近 90% 为研发人员，硕士研究生的比例超过 50%。核心创始团队来自清华大学人工智能研究院，专注于贝叶斯机器学习的基础理论与高效算法研究已超过20 年，并且是国内最早开展扩散概率模型基础研究的团队之一，相关论文在 ICML、ICLR 等顶尖 AI 会议上发表近30 篇。

他们的成果包括 免训练推理框架 Analytic-DPM、全球最快采样算法 DPM-Solver、多模态大模型 UniDiffuser、3D 生成算法 ProlificDreamer 及可控视频编辑算法 ControlVideo等国际领先的项目。其中，Analytic-DPM 的论文是 ICLR 会议上 首篇由中国大陆单位独立完成并获奖的论文。

今年 1 月，国际人工智能促进协会（AAAI）公布了 2024 AAAI Fellow 名单。因其在机器学习理论与实践方面的重大贡献，朱军教授获得了这一荣誉，他同时担任清华大学计算机系的 Bosch AI 冠名教授及计算机系人智实验室主任，并且是 IEEE Fellow。

朱军教授在校培养的多位学生，如在扩散模型领域颇有成就的宋飏、宋佳铭，以及 ChatGPT 领域的华人研究者翁家翌、赵盛佳，已成为生成式 AI 领域的顶尖科研力量。

结语：AI 视频生成竞赛，序幕才刚刚拉开

在 AI 视频生成模型的研发竞赛中，中美之间存在显著的技术差距，国内团队仍需不断提升。

不过，国内团队并非从零开始。生数科技比美国更早提出了扩散 Transformer 融合架构，目前正全力追赶 Sora，近期将着重攻克长视频生成的能力，包括实现更好的分镜处理、初步理解物理世界、视频编解码及确保长视频的连贯性 等方面。

在其他已公开的 AI 视频生成模型及产品中，爱诗科技的 PixVerse 在上线 88 天内生成了 1000 万条视频，潞晨科技开源的 Sora 复现方案则将成本降低了 46%……许多国内团队也在积极探索可生成视频的多模态大模型。

即将在 4 月 18 日至 19 日举行的 2024 中国生成式 AI 大会， 生数科技联合创始人兼 CEO 唐家渝 、 爱诗科技创始人兼 CEO 王长虎 、新加坡国立大学青年教授兼潞晨科技创始人尤洋、 万兴科技副总裁朱伟 、 极佳科技创始人兼 CEO 黄冠 、VAST 创始人兼 CEO 宋亚宸 等国内领先的类 Sora 模型和 3D 生成模型企业的创业者与高管，将分享他们在前沿技术与商业应用方面的干货。