Sora对物理世界的理解有多深？

共计 1394 个字符，预计需要花费 4 分钟才能阅读完成。

我们所录制的视频真实地反映了物理世界的规律。以航行为例，这意味着人工智能在进行相关分析时，必须考虑重力、浮力、碰撞以及船体结构在动态环境中的表现。那么，问题就来了，Sora 是否真正理解物理世界呢？

这是一个非常值得探讨的问题。

如果将其换个说法，可以提出这样一个疑问：基于扩散模型的变换器架构（DiTs），能否对现实场景进行有效的泛化预测呢？

在此，我想分享一下我的看法。首先，预测的准确度依赖于具体的要求：如果是针对广泛、粗略的时间段，这种方法表现得相当出色；然而，若涉及小尺度、细致的长时间预测，结果可能会产生显著偏差。不过，毫无疑问，这一方法展现出了令人惊叹的潜力与可能性。

为什么会这样认为呢？这与扩散模型背后的物理图像密切相关。扩散模型解决了信息丢失的还原问题。以 Sora 为例，它是通过特定的随机数种子，在时空隐空间内根据提示信息生成若干点，再利用扩散模型在相邻时空中还原这些点，并最终通过解码器将其恢复到像素级别。

这一过程可以比喻为作家创作小说。他们首先构思出几个核心情节，然后根据常识及人物关系将这些情节串联起来，最终形成一个完整且引人入胜的故事。当然，情节的自然衔接和故事的精彩程度取决于作家的能力。在 Sora 中，这一环节由训练得到的扩散模型还原过程来实现，而这一过程则依赖于大量的特征序列，这些特征序列通过变换器架构进行构建。关于变换器的原理，这里不再详细说明，它可以理解为将一定长度的 tokens/patches 从像素空间映射到不同的潜在空间维度，实际上是一种信息压缩与分解的映射。

但问题随之而来：变换器的映射是否能够有效对应于真实世界呢？从数学的角度看，这种映射是同态映射还是同构映射？在考虑时空与变化特性时，这种映射是否保持了对称性？从拓扑的角度来看，它是否能够保证同胚性或同痕性？对此我认为仍需打一个大大的问号。需要注意的是，在统计上保持一致相对简单，而在细致结构上保持一致则十分困难（当然，这或许可以成为未来的研究方向）。

此外，扩散模型存在一个前提假设，即信息的丢失与扩散符合高斯噪声加入的马尔科夫过程。然而，现实中的高斯分布和马尔科夫性是不存在的。前者只是大数法则下的近似，后者忽略了长程时间路径的关联。这一点非常重要，因为物理学需要考虑因果关系及路径，比如磁滞回线、比热、相变等。而一旦进入微观过程，统计意义上的定律可能并不具备强大的指导性，更何况存在“幸存者悖论”，AI 学习的数据本身就经过人类偏好的筛选，这使其与真实世界的差距进一步加大。

不过，我们也可以换个角度思考这个问题。人类所谓的“理解物理”，在某种程度上，仅仅是形成了一个可行的世界模型。正如所言：“所有的数学理论都是正确的，但一些是有用的；所有的物理模型都是错误的，但一些是有用的。”从这个角度来看，即使 Sora 的世界模型存在瑕疵，也只是因为当前的模型尚不完善。因此，认为 Sora 能够“理解物理”并非完全不成立。像 lecun 那样的严厉批评，其实也只是出于政治正确的考量。

以上是我的观点，欢迎大家在评论区提出意见和建议！

来源：知乎

原文标题：Sora 懂不懂物理世界？– 知乎

原文链接：https://www.zhihu.com/question/645000449/answer/3403446142

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完