Google新发布的Gemini Diffusion:自回归模型的终结者吗?

共计 4565 个字符,预计需要花费 12 分钟才能阅读完成。

探索扩散语言模型的未来:从基础研究到实际应用的转变

大家好,我是来自中国人民大学高瓴人工智能学院的李崇轩。由于我在这一领域的研究与此问题关系密切,特此分享我的见解。

在连续扩散模型的研究中,我与朱军老师及师弟师妹们展开了多项合作,诸如 Analytic-DPM、U-ViT、DPM-Solver、ProlificDreamer、DPM-Solver++ 和 unidiffuser 等项目均为我们的代表性成果。

作为人大的课题组成员,我在离散扩散模型方面也有一些进展,主要包括 RADD、Scaling Law for MDM、LLaDA、LLaDA-V 及即将发布的 LLaDA 1.5。

接下来,我将把这个领域的研究历程分为两个阶段进行介绍,并分享我的个人看法。

第一阶段:2022 年至 2024 年底,扩散语言模型的基础研究期

在这一时期,扩散语言模型的研究较为小众,我将其分为离散和连续模型两类。

1.1 连续扩散模型在离散数据上的应用

早期的研究中,许多方法尝试直接将连续扩散模型(基于高斯噪声去噪)应用于语言数据,这在某种程度上可以视作对离散数据的连续化处理。代表性工作包括 Percy Liang、Ting Chen 与 Hitton 的合作成果、quanquan gu 和 zaixiang zheng 的研究,以及 Alex Graves 的 Bayesian flow network。此外,苹果的 Yizhe Zhang 和港大的 Lingpeng Kong 课题组也有许多相关研究(如果遗漏了其他工作,请大家在评论区补充)。

还有一些研究采用连续模型,但避免对离散数据进行连续化,比如 Lou 和 Ermon 研究了在单纯形约束下的离散数据概率分布的连续扩散模型。这一技术更为复杂,但在可扩展性和采样方法上面临更大挑战。

另外,ICML 2024 还提出了一种通过 SDE 统一 BFN 和扩散模型的方法,这种思路在 logits 空间(softmax 之前)进行线性 SDE 的处理,不需要对数据进行连续化,也不受单纯形约束,同时可以将 DPM-solver 等方法应用于加速,我认为这在方法论上非常出色。

我们组在扩散语言模型的研究起步较晚,大约在 2023 年 6 月开始。上述 ICML 2024 的研究是我们的首个相关成果。我选择连续扩散模型的原因在于,它能够实现多模态的无缝整合。语言、图像和视频可以通过扩散模型进行统一的概率建模,底层使用一个 transformer 模型(如 unidiffuser)实现大一统。

然而,令人遗憾的是,目前这类方法在语言处理上的可扩展性尚存疑虑。例如,Plaid 文章中提到的一些结果相对负面。不过,BFN 在科学等小规模数据上的应用却非常广泛,值得关注一些相关期刊的研究。

1.2 离散扩散模型的发展

追溯历史,离散扩散模型在 ICML 2015 首次提出时便已存在。Austin 和 Jonathon Ho 等人在 2021 年提出的 D3PM 被认为是现代 MDM 的雏形,但其损失函数设计相对复杂。Lou、Meng 和 Ermon 提出的 SEDD 提供了一种优化损失的方案,并获得了 ICML 的杰出论文奖(中间还有许多 MDM 的相关工作,建议大家查询相关文献以获取更多信息)。

离散扩散模型的构建可以有多种形式。其中一种著名的方式是将平稳分布设为词表上的均匀分布,即 Uniform,而另一种是全掩码的 MDM(Masked Diffusion Model)。大量实验表明,MDM 的效果显著优于 Uniform,尤其是在连续扩散模型的扩展性不足时,自然使得研究重心转向 MDM。

我们最初希望系统性地理解 MDM 的本质,而我们的研究得到了一个非常惊人的结论:一个 MDM 的转移核应该是关于时间 t 的函数(考虑到连续扩散模型需将时间 t 输入网络进行去噪),然而我们证明 MDM 中该函数是一个具有解析解的标量,乘在一个需要学习的模型分布上。因此,我们可以重参数化,去掉模型输入中的 t,最终在输出时乘以该函数,这便是 RADD,基于 RADD 的工作可以简化 SEDD 的模型与损失函数设计。例如,RADD 的去掉 t 意味着我们不再需要使用 Diffusion Transformer,而是可以直接使用 Transformer,从而与 BERT、MaskGIT 形成联系。

我们的小组于 2024 年 6 月将 RADD 的研究成果发布到 arxiv 上(论文标题为《Your Absorbing Discrete Diffusion Secretly Models the Conditional Distributions of Clean Data》),同期还有我师弟 Deepmind 的 Jiaxin Shi 和康奈尔的 Volodymyr Kuleshov 的相关研究。这三项工作在损失函数上非常相似,我们的独特贡献在于证明了输入中的 t 可以去除,佳欣进行了调度的一般化及图文实验,而 Volodymyr Kuleshov 则验证了去掉 t 的有效性,并取得了最佳的语言结果。

2024 年 9 月,Kaiwen 的研究成果《Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling》也证实了可以去掉时间 t,并特别指出了 MDM 似然实验中的数值问题。

1.3 MDM 与 BERT 和 MaskGIT 的关系

由于这一问题备受关注,我特意单独回应。MDM 与 BERT 的关系如下:

MDM -> 采用掩码转移核(不可使用均匀分布)-> 证明输入中的时间 t 是冗余的(否则将 t 输入的将是 DiT/U-ViT)-> 随机掩码改为固定掩码(这直接导致不再是生成模型)-> BERT

我们组与许多 MDM 研究者皆源于机器学习,尤其是生成模型的背景。MDM 的发展沿着概率建模的思路进行,因此被称作扩散模型(若追溯至 ICML 2015,这一术语甚至比 BERT 的提出还早)。随后,我们确实发现了与 BERT 和 MaskGIT 的联系,并在相关工作中进行了说明,并未回避这一话题。

不过,我认为二者之间的区别非常显著。在技术层面,BERT 的联合概率如何定义?如何从 BERT 中采样文本?若缺乏这些能力,作为非生成模型的 BERT 又如何与 GPT 统一语言任务?有许多 Scaling BERT 的研究,为什么他们仅作为嵌入模型,而不作为基础生成模型?谷歌 BERT 积累多年,为什么直到现在 Gemini Diffusion 才问世?

其实,具体的命名并不算重要,将 MDM 称为Modified/Randomized BERT 在技术层面上也并无错误,但若去掉 Modified/Randomized,则称之为 BERT,是否显得不够客观?

我个人坚持认为,扩散模型更为恰当的名称,这一发展历程就是如此,这在技术上是扩散,并且强调了其作为生成模型的特性,正因其为生成模型,我们才相信它能够与 GPT 竞争,而非仅仅因其类似于 BERT。

第二阶段:2024 年底至 2025 年初,扩散语言模型的扩展应用期

2.1 学术界的进展

在 RADD 发表后,我们组的目标十分明确,决定将五位博士生中的一半人力投入到 MDM 的研究中。2024 年,我在启动小组会议时向大家阐述了我们有 三个目标:

  1. 确保每位同学都能找到适合的 MDM 项目,进行系统的科研训练,并且每个人都能有自己的第一作者作品(这一目标已实现);
  2. 团结协作,课题组共同开展有影响力的研究(这就是我们的 LLaDA 系列);
  3. 解决 MDM 中最棘手的问题,让顶尖企业能够在端侧或云端上线 MDM 模型或技术,取代 ARM(划掉)。

在这三个目标的指引下,我们的课题组和合作伙伴们开始从 MDM 的基础研究转向扩展应用。

第一个成果是在 2024 年 10 月,课题组提出了第一个 MDM 的扩展法则(ICLR 2025)。考虑到似然评估的数值问题(如前所述)以及在大规模应用中的下游任务重要性,我们系统评估了 MDM 与 ARM 的表现。虽然实验规模较小,但数据、算法、模型和计算量均进行了对齐。我们的结论是解决了当时最重要的问题:在从头训练的情况下,MDM 的表现不逊色于 GPT-2 的规模。

第二个成果于 2025 年 2 月完成,课题组成功研发出首个能够进行多轮对话的 MDM——LLaDA 8B。LLaDA 展现出了卓越的可扩展性和指令跟随能力,能够与 LLaMA 3 8B 等代表性工作相媲美。完成 LLaDA 后,课题组经过讨论,决定全力支持开源工作,将一切能够开源的代码和权重全部公开,并尽快回复社区内的所有问题。我们希望更多人能够参与到该领域,共同完善 MDM,以实现我们的目标三。

后续的发展也如我们所预期,越来越多的人开始关注这一领域。近期,在语言对齐和推理方面的工作包括 d1、LLaDou,以及我们即将发布的 LLaDA 1.5(VRPO);在多模态相关工作上,王梦迪老师的 MMaDA、LaViDA 和我们的 LLaDA-V 也在不断推进;在扩散模型的加速技术方面,还有类似于 kv cache 的 dimple 和 dLLM-cache 两篇研究。

除了从零开始的扩展,Lingpeng Kong 课题组也探讨了基于自回归模型微调的 diffuLLaMA 和 Dream。

2.2 工业界的进展

自 LLaDA 在 2 月份开源后,Inception Lab 随即推出了 Mercury coder,而 Gemini Diffusion 的亮相也引起了广泛关注。不过,值得一提的是,我们在开发 LLaDA 的过程中并未受到这些产品的启发,从时间线可以看出。

我认为工业界的产品在某些方面肯定会优于学术界的研究,他们所实现的一些加速效果确实显著,例如使用缓存、跳步机制和蒸馏等,然而遗憾的是,目前两者都尚未披露太多技术细节。

关于 LLaDA 的贡献与局限性

LLaDA 是我参与的最佳研究项目之一,尽管遭遇 ICML 拒稿,但自 2014 年博士生涯以来,我在生成模型领域已探索了十年,涉及过 VAE、GAN、EBM 和扩散模型。终于有一次,是我向他人证明这一研究是有效的,而不是他人告知我。有人质疑 LLaDA 缺乏创新技术,实话说,我在技术层面的生成模型工作并不少,Analytic-DPM 就是一个技术驱动的例子;在应用方面,我也曾做过很多,U-ViT 就非常直接。我认为,最优秀的研究应在于改变或深化人们对某个事物的理解,而我在 LLaDA 的研究过程中确实改变了许多认知。

如果你认为 LLaDA 并未改变你的认知,不妨反思一下,回到一年前,在 Diffusion 工作出现之前,你认为这条路会成功吗?如果给你 300 张 GPU 卡,只有一个半月的使用时间,你会如何利用这些资源?

很多人提到的扩展性问题确实值得关注,这是一个复杂且值得深入研究的课题。特别是对于研究者而言,如果一个问题大家都认为简单,反而意味着竞争将会格外激烈。扩散语言模型仍有许多值得探索的空间,机会往往藏匿于困难之中。

以上文字稍显冗长,感谢您的耐心阅读。同时,欢迎关注我们课题组在 2 月份发布的知乎文章:GSAI-ML:自回归是否是通往语言智能的唯一路径?——生成模型的一些思考(3)

来源:知乎
原文标题:如何评价 Google 刚刚发布的 Gemini Diffusion? 会代替自回归模型成为下一代模型吗?– 知乎
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-19发表,共计4565字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!