Sora对物理世界的理解有多深？

共计 1379 个字符，预计需要花费 4 分钟才能阅读完成。

探索基于扩散模型的 Transformer 架构的泛化能力

这是一个值得深思的问题。

用另一种方式阐述，这个问题可归结为：基于扩散模型的 Transformer 结构（DiTs）是否能在现实场景中实现有效的泛化预测？

就个人而言，我认为这主要取决于预测的具体要求。如果需要进行大范围、粗略的短时间预测，那么这种方法的效果会相当出色；但若涉及小范围、细致、长时间的预测，结果可能会有显著偏差，甚至相差甚远。尽管如此，毫无疑问，这种方法展现了令人惊叹的潜力与可能性。

为何会有这样的观点呢？这与扩散模型所依据的物理图像密切相关。扩散模型致力于解决信息丢失的还原问题。以 Sora 为例，它基于特定的随机种子，在时空隐空间中根据提示信息生成若干点，接着利用扩散模型尝试在相邻的时空中还原这些点，通过解码器将其恢复到像素级别。

这一过程犹如作家创作小说，首先构思出几个关键情节，然后根据常识、人物关系及角色特性将这些情节串联起来，最终形成一个完整、引人入胜的故事。当然，情节的连贯性和故事的精彩程度则依赖于作家的创作能力。在 Sora 中，这一过程是通过训练扩散模型的还原步骤完成的，借助大量特征序列，而这些特征序列又是通过 Transformer 架构构建而成。关于 Transformer 的原理这里不再详细说明，简单理解为它是通过一定长度的 tokens/patches 将像素空间映射到不同的潜在空间维度，本质上是一种信息的压缩和分解。

然而，问题随之而来：Transformer 的分解映射是否能与真实世界形成有效的对应关系？从数学的视角来看，这种映射究竟是同态映射还是同构？在考虑时空变化的特性时，这种映射是否保持了对称性？从拓扑的角度来看，能否确保同胚性和同痕性？对此，我认为需要打上一个大大的问号。要知道，统计上的一致性相对容易实现，但在精细结构上保持一致则困难重重（当然，这也可能成为未来的研究方向）。

此外，扩散模型存在一个前提假设，即信息的丢失和扩散符合高斯噪声的马尔科夫过程。然而，现实中的自然状态并不存在完全的高斯分布和马尔科夫性。前者仅是在大数法则下的近似，而后者则忽略了长程时序路径的关联。这一点至关重要，因为物理学恰恰需要考虑因果关系和路径。例如，磁滞回线、比热、相变等现象，而当涉及微观过程时，统计意义上的定律可能并不具备强大的指导性，尤其是因为“幸存者偏差”，AI 学习的数据本身往往经过人类的偏好筛选，这使得其与真实情况之间的差距进一步扩大。

不过，我们也可以换个角度审视这个问题。从某种意义上来说，人类所称的“理解物理”，其实只是构建了一个能够有效运作的世界模型。正如所言：“所有的数学理论都是正确的，只是有些是有用的；所有的物理模型都是错误的，只是有些是有用的。”从这一角度来看，即使 Sora 的世界模型存在问题，也仅是因为当前模型尚不够完善。因此，尽管 Sora 能够在一定程度上“理解物理”，也不能完全否定其价值。像 lecun 那样的强烈批评，其实更多地是受到政治正确的影响。

以上是我的观点，期待大家在评论区提出宝贵的意见和建议！

来源：知乎

原文标题：Sora 懂不懂物理世界？– 知乎

原文链接：https://www.zhihu.com/question/645000449

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完