Sora对物理世界的理解有多深?

共计 1394 个字符,预计需要花费 4 分钟才能阅读完成。

我们所录制的视频真实地反映了物理世界的规律。以航行为例,这意味着人工智能在进行相关分析时,必须考虑重力、浮力、碰撞以及船体结构在动态环境中的表现。那么,问题就来了,Sora 是否真正理解物理世界呢?

这是一个非常值得探讨的问题。

如果将其换个说法,可以提出这样一个疑问:基于扩散模型的变换器架构(DiTs),能否对现实场景进行有效的泛化预测呢?

在此,我想分享一下我的看法。首先,预测的准确度依赖于具体的要求:如果是针对广泛、粗略的时间段,这种方法表现得相当出色;然而,若涉及小尺度、细致的长时间预测,结果可能会产生显著偏差。不过,毫无疑问,这一方法展现出了令人惊叹的潜力与可能性。

为什么会这样认为呢?这与扩散模型背后的物理图像密切相关。扩散模型解决了信息丢失的还原问题。以 Sora 为例,它是通过特定的随机数种子,在时空隐空间内根据提示信息生成若干点,再利用扩散模型在相邻时空中还原这些点,并最终通过解码器将其恢复到像素级别。

这一过程可以比喻为作家创作小说。他们首先构思出几个核心情节,然后根据常识及人物关系将这些情节串联起来,最终形成一个完整且引人入胜的故事。当然,情节的自然衔接和故事的精彩程度取决于作家的能力。在 Sora 中,这一环节由训练得到的扩散模型还原过程来实现,而这一过程则依赖于大量的特征序列,这些特征序列通过变换器架构进行构建。关于变换器的原理,这里不再详细说明,它可以理解为将一定长度的 tokens/patches 从像素空间映射到不同的潜在空间维度,实际上是一种信息压缩与分解的映射。

但问题随之而来:变换器的映射是否能够有效对应于真实世界呢?从数学的角度看,这种映射是同态映射还是同构映射?在考虑时空与变化特性时,这种映射是否保持了对称性?从拓扑的角度来看,它是否能够保证同胚性或同痕性?对此我认为仍需打一个大大的问号。需要注意的是,在统计上保持一致相对简单,而在细致结构上保持一致则十分困难(当然,这或许可以成为未来的研究方向)。

此外,扩散模型存在一个前提假设,即信息的丢失与扩散符合高斯噪声加入的马尔科夫过程。然而,现实中的高斯分布和马尔科夫性是不存在的。前者只是大数法则下的近似,后者忽略了长程时间路径的关联。这一点非常重要,因为物理学需要考虑因果关系及路径,比如磁滞回线、比热、相变等。而一旦进入微观过程,统计意义上的定律可能并不具备强大的指导性,更何况存在“幸存者悖论”,AI 学习的数据本身就经过人类偏好的筛选,这使其与真实世界的差距进一步加大。

不过,我们也可以换个角度思考这个问题。人类所谓的“理解物理”,在某种程度上,仅仅是形成了一个可行的世界模型。正如所言:“所有的数学理论都是正确的,但一些是有用的;所有的物理模型都是错误的,但一些是有用的。”从这个角度来看,即使 Sora 的世界模型存在瑕疵,也只是因为当前的模型尚不完善。因此,认为 Sora 能够“理解物理”并非完全不成立。像 lecun 那样的严厉批评,其实也只是出于政治正确的考量。

以上是我的观点,欢迎大家在评论区提出意见和建议!

来源:知乎
原文标题:Sora 懂不懂物理世界?– 知乎
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-06发表,共计1394字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!