共计 6118 个字符,预计需要花费 16 分钟才能阅读完成。
观看了一些奇怪的视频(
在龙年之初,Sora 的出现引起了全球的关注,颇具震撼力。Sora 自称为“全球模拟的视频生成模型”,气势磅礴。有人对未来感到悲观,认为许多传统领域将面临冲击,其中计算机图形学、短视频及影视娱乐行业尤为脆弱。随着 OpenAI 进一步披露技术细节,Sora 生成的物理悖论视频在网络上广泛传播。笔者将结合现代数学,尤其是整体微分几何的一些观点,来探讨当前 Sora 技术路径中的不足之处,并期待能够激发更多 AI 研究和工程人员的思考,推动相关领域的发展。本文将主要运用流形嵌入理论、灾变理论、纤维丛示性类理论,以及热扩散方程和最优传输方程的正则性理论进行分析。
流形分布法则
在深度学习领域,自然数据集被视为流形上的概率分布,这一现象称为 流形分布法则。我们将观察到的样本视为原始数据空间中的一个点,多个样本则构成了一个在某个低维流形附近的稠密点云,这个流形被称为数据流形。点云在数据流形上的分布并非均匀,而是遵循特定的分布规律,表现为数据概率分布。
由此,我们不禁提出几个问题:1. 为什么数据点云是低维的,而没有填满整个原始数据空间?2. 为什么点云集群形成流形,即局部是连续光滑的?
针对第一个问题的解释是,自然现象遵循许多自然规律,这些规律的约束降低了数据样本点云的维度,无法填满整个空间。例如,当我们分析自然人脸照片构成的数据集时,每个样本都是一张图片,而原始图像空间的维数则是像素数量乘以 3。尽管原始图像空间中的任意一点都代表一幅图片,但实际上,只有极少数的图片是人脸图像,因此人脸图像流形不可能占据整个原始图像空间。人脸必须遵循许多生理规律,例如左右对称性,这就将维度降低近一半;同时,每个器官具有类似的形状,所需描述的参数也相对较少,进一步降低了维度。最终,控制人脸特征的基因极为有限,这使得人脸图像流形的维度远低于图片的像素数量。
另外,考虑到平面区域的稳恒态温度分布,根据物理热扩散原理,稳定函数满足经典的 Laplace 方程,由边界值唯一确定。如果我们在区域内有 n 平方个采样点,边界上有 n 个采样点,则每个观察到的温度函数可视作维数为 n 平方的向量,即原始数据空间的维数为 n 平方,而实际流形的维数仅为边界函数的维数 n。因此,可以看出,符合物理定律的观察样本构成的数据流形的维数远低于原始数据空间的维数。
对于第二个问题,答案是绝大多数情况下,物理系统是适定的,但在临界状态下,物理系统会出现突变(这一点可通过灾变理论或临界态理论来理解)。物理法则通常通过偏微分方程系统描述,微分方程的解是由初值和边界值控制的。适定性意味着由于能量和质量的守恒,以及能量传递小于光速等物理限制,初值和边界值的逐步变化也将导致解的逐步变化。在偏微分方程的正则性理论中,这表明边界值的索伯列夫范数控制解的索伯列夫范数等。我们可以将解视为数据流形上的点,边界值视为其对应的局部坐标(即隐空间中的相应隐特征向量)。从数据流形到隐空间的映射称为编码映射,从隐空间到数据流形的映射称为解码映射。正则性理论保证了编码映射和解码映射的连续性和光滑性,并且解的唯一性确保这些映射是拓扑同胚或者微分同胚。边界值可以进行任意局部扰动,即隐变量存在一个开欧式圆盘的邻域。这意味着,符合特定物理定律的观察样本构成了数据流形。

如图 1 所示,Sora 的训练集由短视频组成,每个样本为一个短视频,而相似类型的短视频构成一个数据流形。Sora 将这些短视频编码至隐空间进行降维,然后在隐空间中将隐特征向量切割成补丁,并添加时间顺序,形成时空补丁,即时空令牌(time-space token)。这里,时空的概念至关重要,每个令牌均记录了短视频的帧序列号(时间)和当前帧的行列序号(空间)。
概率分布的转化
我们可以进一步提出问题:3. 数据流形上的概率分布是如何表示的?

如图 2 所示,Sora 在隐空间中采用扩散过程(郎之万动力系统——每个令牌逐步添加噪声)将数据令牌的概率分布转化为高斯分布,并通过传输变换的逆变换将隐空间中的白噪声令牌转换为隐数据令牌。
大语言模型的支持
Sora 结合了大语言模型 ChatGPT,从而极大地提升了系统性能。首先,Sora 的训练样本为(文本,视频)对,有些视频的标题过于简短,字幕不足,Sora 采用 Dall- E 的重新标题技术进行优化。
Sora 的训练集包含了一些优质的样本(高度描述性的字幕和短视频),由此训练出短视频数据流形(包括时空令牌流形),每个流形用其字幕(标题)来标识。对于那些缺乏标题或字幕含糊不清的劣质短视频,Sora 将在隐空间中寻找临近优质视频的隐特征向量,并将优质视频的字幕(标题)复制到劣质视频上。通过这种方法,Sora 能够为所有训练视频数据添加高度描述性的字幕,从而提升训练集的质量,进而提高系统的性能。
同时,大语言模型可以扩展用户输入的提示,使其更加精准和描述性,从而使生成的视频更好地契合用户需求。这使得 Sora 如虎添翼。然而,Sora 依然存在诸多缺陷,我们可以通过以下例子进行分析。
相关性与因果关系的矛盾
ChatGPT 将语句拆分为令牌,并通过 Transformer 学习上下文中令牌之间连接的概率分布。类似地,Sora 将视频分解为时空令牌,并学习上下文中令牌之间的连接概率分布,依据这一概率分布从白噪声生成令牌,连接令牌,并解码成短视频。每个令牌表达图像或视频中的一个局部区域,而不同局部区域间的拼接则成为了关键问题。Sora 相对独立地学习每个令牌,令牌间的空间关系通过训练集中体现的概率进行表达,因此无法精准表达令牌间的时空因果关系。
如视频 1 所示,Sora 生成的视频中每一帧都显得极为真实,但当老奶奶吹熄生日蜡烛时,蜡烛的火焰却毫无波动。如果我们将视野缩小到每一个令牌的区域,可以看到精美绝伦的真实画面,令牌之间的连接也显得非常平滑自然,但当相距较远的令牌之间存在因果联系时,例如吹出的空气影响火焰的跳动,两个令牌之间的物理因果却没有得到体现。这表明 Transformer 所表达的令牌间统计相关性,无法准确表现物理因果律。尽管 Transformer 在一定程度上能够操控自然语言,但自然语言并不能准确表达物理法则,而物理法则目前仅能通过偏微分方程精确表达。这反映了基于概率的世界模型的某种局限性。
局部合理与整体荒谬的矛盾
当前,Sora 在相邻令牌间的拼接表现得相当合理,但整体拼接的视频却可能出现种种悖论。这说明局部拼接与整体扩展之间存在鸿沟。
在观察“幽灵椅子”视频时,如果我们将视野限制在屏幕中间的一个局部区域,则视频表现得非常合理。仔细检查不同令牌区域之间的连接,也非常连续光滑。然而,整个椅子却如幽灵般悬空,显然与日常经验相悖。这种“局部合理,整体荒谬”的生成视频意味着 Transformer 在学习令牌间局部连接概率的同时,缺乏时空上下文的整体观念。在这个视频中,整体观念来源于物理中的重力场,尽管局部看不出来,但整体上却无时不在。
此外,Sora 生成的“四足蚂蚁”视频中,蚂蚁的动作自然流畅,宛如行云流水。局部表现得非常流畅自然,令人不禁联想到或许在某个星球上存在这样的四足蚂蚁。然而,整体上地球的自然界并没有四足蚂蚁。局部的合理性并不能确保整体的合理性,这里的全局观念源于生物学的事实。
同样,Sora 生成的“南辕北辙跑步机”视频中,尽管每个局部区域的表现都合理,视频令牌间的连接也非常自然,但整体视频却显得荒谬,跑步机与跑步者的方向相反。这个视频的全局观念与人体工程学的事实相悖。
这些例子表明,当前的 Transformer 虽然能够学习局部的上下文,但却无法学习更加广泛的全局上下文,这里的全局可以是物理中的重力场,也可以是人体工程学,甚至是生物中的物种分类。这种全局观念,正是朱松纯教授在 AI 领域提出的暗物质思想。尽管每个训练样本视频隐含地表达了全局的观念,但令牌化过程却割裂了全局观念,仅保留了临近令牌间的连接概率,从而导致局部合理,整体荒谬的结果。
现代整体微分几何非常重视局部与整体的矛盾,因此发明了多种理论工具。例如,我们可以在拓扑流形的局部构造光滑标架场,但无法将其全局推广;全局推广的障碍在于纤维丛的示性类。在复流形上,我们可以局部构造亚纯函数,但整体上无法将局部的函数拼接成整体的亚纯函数,这种局部推广到整体的差异可通过层的上同调理论来精确刻画。许多物理理论都表现为特定纤维丛的示性类理论,例如拓扑绝缘体理论。这种局部容易构造,整体推广存在实质性困难的数学理论,实际上是人类深层次探索自然的智慧结晶。这种整体的拓扑、几何观念尚未推广到 AI 领域。如果 Transformer 能够自我学习上下文中的整体障碍,AI 将更有效地探索自然界。
临界状态的缺失
自然界的绝大多数物理过程是稳恒态与临界态交替变化的。在稳恒态中,系统参数缓慢变化,易于获取观察数据;而在临界态(灾变状态)中,系统突然发生突变,令人措手不及,难以捕捉到观察数据。因此,临界态的数据样本极为稀少,训练集中几乎为零测度。由此,Sora 系统学习到的数据流形大多由稳恒态样本构成。物理过程中的临界态样本多分布在数据流形的边界。因此,在生成过程中,Sora 很容易生成稳恒态的视频片段,但往往跳过临界态。然而在人类的认知中,最关键的观察恰恰是概率几乎为零的临界态。
在 Sora 生成的果汁泼溅视频中,存在两个稳定状态:水杯直立状态和果汁泼溅出来的状态,而最为关键的临界状态,即果汁从杯中流洒出来的过程却未能生成。虽然这仅有短暂的几帧,但对人类感知整个过程却是至关重要。Sora 无法生成关键临界态图像的原因可能有以下几点:
物理过程中的不同稳恒态样本生成的数据流形具有不同的连通分支,临界态样本多分布在稳恒态流形的边界。热力学扩散过程使流形的边界变得模糊,进而混淆了流形边界,生成了过程含混的视频。换言之,临近态对应着数据流形的边界,学习过程中应该保持边界情形,而不应产生模式混淆。

如图 3 所示,我们用 MNIST 训练了一个编码解码器,在隐空间中描绘出数据集的隐空间分布,10 个手写体数字对应着 10 个团簇,每个团簇是一个模式(mode),即数据流形的一个连通分支。团簇的边界即为数据隐空间分布支集的边界。我们在隐空间生成了 100 个采样点,通过解码生成 100 个手写体数字图像。如果采样点落在某个团簇内部,则生成的图像会非常清晰;如果采样点落在团簇边界的外部,生成的图像则会非常模糊,通常是两个手写体数字的融合。因此,识别数据流形的边界对于识别临界状态极为重要。
Sora 当前采用的扩散模型,在计算传输映射时,必然会光滑化数据流形的边界,从而混淆不同模式,直接跳过临界态图像的生成。因此视频看上去会从一个状态突然跳跃到另一个状态,中间最为关键的倾倒过程缺失,导致物理上的荒谬。
视频 6 显示了另一种由于跨越流形边界而出错的情况。Sora 生成的小狗群嬉戏打闹,时而相互遮挡,时而散开。在视频的某一瞬间,屏幕中的 3 只小狗突然变成 4 只小狗。对此我们可以这样解释:4 只小狗的图片构成一个流形(或连通分支),而 3 只小狗的图片构成另一个分支。在 4 只小狗图片的流形边界处,发生了一个临界事件:四只小狗彼此遮挡,图片中只能看到 3 只小狗。Sora 的扩散模型未能识别流形的边界,而是越过了这条边界,游走于 3 只小狗图片和 4 只小狗图片的流形之间。正确的做法应是识别流形的边界,并在物理无法跨越的情况下(如 3 只与 4 只之间),在边界处折返回原来的流形。


扩散模型的缺陷可以通过基于几何方法的最优传输模型来克服。如图 4 所示,假设我们计算从圆盘内部均匀分布到右侧海马形状区域的均匀分布的最优传输映射,根据相应的 Brenier 定理,最优传输映射由某个凸势能函数的梯度映射给出。该势能函数满足蒙日 - 安培方程,且其并非处处可导,其连续、不可导的集合投影到圆盘区域的奇异集合(黑色曲线),规则点映射到目标区域的规则点,奇异集合映射到目标区域的边界(每个奇异点同时映射到左右两个边界点)。当我们跨越奇异集合时,就意味着我们跨越了两个稳恒态,必然会发生临界(灾变)事件,即稳恒态被打破的物理事件。因此可见,精确找到传输映射的奇异集合,探测临界(灾变)状态,对物理世界建模至关重要。
总结
综上所述,尽管 Sora 声称是“全球模拟的视频生成模型”,但目前的技术路径无法准确模拟世界的物理规律。首先,基于概率统计的相关性无法精确表达物理定律的因果性,自然语言的上下文相关性无法达到偏微分方程的精密程度;其次,尽管 Transformer 能够学习临近时空令牌间的连接概率,却无法判断全局的合理性。整体的合理性需要更高层次的数学理论视角,或者更为深厚的自然科学和人文科学背景,而当前的 Transformer 无法真正领悟这些全局观点。此外,Sora 忽略了物理过程中最为关键的临界(灾变)态,既因临界态样本的稀缺,又因扩散模型将稳恒态数据流形的边界模糊化,进而消弭了临界态的存在,生成的视频呈现出不同稳恒态之间的跳跃。而基于几何方法的最优传输理论框架,能够精确检测稳恒态数据流形的边界,从而强调临界态事件的生成,避免不同稳恒态之间的横跳,更加接近物理的真实。
目前,以 Sora 为代表的数据驱动世界模拟模型,与基于第一性原理建立的物理定律和偏微分方程的世界模拟模型之间,正展开激烈的竞争。这或许是人类历史的一个伟大转折点。希望年轻的读者们能够积极融入这一时代洪流,运用自己的智慧推动科技与社会的发展!