共计 2430 个字符,预计需要花费 7 分钟才能阅读完成。
真实的视频能够反映出物理世界的规律,以航行为例,这就要求人工智能必须考虑重力、浮力、碰撞以及船体在动态环境中的表现。那么,Sora 究竟是否理解物理世界呢?
丘成桐教授的学生,纽约大学石溪分校的计算机图形学专家顾险峰,从数学的角度进行了深入的分析:
Sora 物理悖谬的几何解释 – 集智俱乐部
在他的文章中,顾险峰教授指出了 Sora 生成视频时所面临的物理问题,概括如下:
- 第一,概率统计的相关性无法准确表达物理定律的因果关系,自然语言的上下文关联无法达到偏微分方程的严密程度;
- 其次,Sora无法评估全局的合理性。尽管 Transformer 可以学习邻近时空令牌之间的连接概率,但整体的合理性需要更为深刻的数学理论或自然科学与人文科学的广泛背景,目前的 Transformer 尚无法真正领悟这些全局观念;
- 此外,Sora忽视了物理过程中至关重要的临界状态。一方面由于临界状态样本稀少,另一方面扩散模型模糊了稳恒态数据流形的边界,从而消除了临界状态的存在,导致生成的视频在不同稳恒态之间出现跳跃。
Sora 的基本原理
Sora 的训练数据集包括短视频,每个样本为一个短视频。Sora 将其编码到数据空间进行降维处理,然后在隐空间中将特征向量切割成小块,结合时间顺序,形成 时空补丁 ,即 时空令牌(time-space token);每个令牌都记录了短视频中的帧序号(时间)和当前帧的行列序号(空间)。

进一步地,Sora 通过扩散过程将数据令牌的概率分布转化为高斯分布,再通过逆变换将隐空间中的白噪声令牌转换为隐数据令牌。对于某些标题过于简短且缺乏字幕的视频,Sora 还采用了Dall- E 的重新标题技术。

Sora 的问题与不足
尽管如此,Sora 在几个方面仍然存在不足:
相关性与因果性的缺陷
Sora 未能准确表达不同令牌之间时空的因果关系。例如,在吹蜡烛的过程中,每一帧都极为真实,但当老奶奶吹灭生日蜡烛时,蜡烛的火焰却没有任何反应。如果我们聚焦于每一个令牌的局部区域,看到的画面都极为精美,令牌之间的过渡也显得非常自然。然而,当因果关系存在时,即吹出的空气影响火焰的跳动,两个令牌之间的物理因果关系却未能表现出来。
这表明:Transformer 可以表达令牌间的统计相关性,却无法精确传达物理因果律。尽管 transformer 在一定程度上能处理自然语言,但自然语言无法准确表达物理定律,而物理定律只有通过偏微分方程才能得到精确的表达。这反映了基于概率的世界模型的一些局限性。
Sora 生成的吹生日蜡烛视频 https://www.zhihu.com/video/1744001303800557569
局部合理但整体荒谬
Sora 能够合理拼接相邻的令牌,但整体视频可能出现悖谬,缺乏整体的合理性。例如,观察“幽灵椅子”视频。如果我们将视野聚焦于屏幕中间的一个小区域,视频显得非常合理。仔细检查不同令牌区间之间的连接,也非常平滑自然。但整个椅子却如幽灵般悬空,这与常识相悖。
这种“局部合理,整体荒谬”的生成结果表明,Transformer 学会了令牌之间的局部连接概率,但缺乏时空上下文的大局观。在这个视频中,整体观念源于物理中的重力场,尽管在局部看不出来,但整体始终存在。
Sora 生成的“幽灵椅子”视频 https://www.zhihu.com/video/1744001007812505601
常识的缺失
当前的 Transformer 尽管能够学习局部的上下文,但无法掌握更为整体的上下文。这种全局观念可能涉及物理中的重力场,也可能是人体工程学,或者生物学中的物种分类。朱松纯教授提出的 AI 世界中的 暗物质 思想正是体现了这一点。
虽然每个训练样本视频隐含地表达了全局观念,但令牌化的过程却使得这些全局观念割裂,有限地保留了临近令牌间的连接概率,导致局部合理但整体荒谬的现象。
例如,Sora 生成的“南辕北辙跑步机”视频中,观察每个局部区域,看到的是合理的画面,视频令牌间的连接也很自然,但整体视频却显得荒谬,跑步机与跑步者的方向相反。这一视频的整体观念与人体工程学的事实相违背。
Sora 生成的南辕北辙跑步机视频 https://www.zhihu.com/video/1744004110163316736
再比如,Sora 生成的“四足蚂蚁”视频中,蚂蚁的动作生动流畅,然而自然界并不存在四足蚂蚁。局部的合理性无法确保整体的合理性,这里的全局观念则源于生物学的事实:
https://www.zhihu.com/video/1744003928390561794
数据光滑化对临界信息的忽视
尽管临界事件在物理系统中出现的概率极低,但其重要性不容忽视;Sora 倾向于生成平滑的变化过程,往往忽略物理过程中的关键临界和相变现象,比如杯子的倾倒。
Sora 生成的果汁泼溅视频 https://www.zhihu.com/video/1744000907401154560
在下图中,小狗一会变成三个,一会又变成四个;Sora 的扩散模型未能识别出数据的边界,而是跨越了这些边界,导致在三只小狗与四只小狗的流形之间跳跃。
正确的方式应该是首先识别数据的边界,在物理现象无法跨越的情况下(如从三只变为四只),在边界处折返回到原来的模型。
Sora 生成的小狗嬉戏视频 https://www.zhihu.com/video/1744002807768977408
