共计 1394 个字符,预计需要花费 4 分钟才能阅读完成。
我们所录制的视频真实地反映了物理世界的规律。以航行为例,这意味着人工智能在进行相关分析时,必须考虑重力、浮力、碰撞以及船体结构在动态环境中的表现。那么,问题就来了,Sora 是否真正理解物理世界呢?
这是一个非常值得探讨的问题。
如果将其换个说法,可以提出这样一个疑问:基于扩散模型的变换器架构(DiTs),能否对现实场景进行有效的泛化预测呢?
在此,我想分享一下我的看法。首先,预测的准确度依赖于具体的要求:如果是针对广泛、粗略的时间段,这种方法表现得相当出色;然而,若涉及小尺度、细致的长时间预测,结果可能会产生显著偏差。不过,毫无疑问,这一方法展现出了令人惊叹的潜力与可能性。
为什么会这样认为呢?这与扩散模型背后的物理图像密切相关。扩散模型解决了信息丢失的还原问题。以 Sora 为例,它是通过特定的随机数种子,在时空隐空间内根据提示信息生成若干点,再利用扩散模型在相邻时空中还原这些点,并最终通过解码器将其恢复到像素级别。
这一过程可以比喻为作家创作小说。他们首先构思出几个核心情节,然后根据常识及人物关系将这些情节串联起来,最终形成一个完整且引人入胜的故事。当然,情节的自然衔接和故事的精彩程度取决于作家的能力。在 Sora 中,这一环节由训练得到的扩散模型还原过程来实现,而这一过程则依赖于大量的特征序列,这些特征序列通过变换器架构进行构建。关于变换器的原理,这里不再详细说明,它可以理解为将一定长度的 tokens/patches 从像素空间映射到不同的潜在空间维度,实际上是一种信息压缩与分解的映射。
但问题随之而来:变换器的映射是否能够有效对应于真实世界呢?从数学的角度看,这种映射是同态映射还是同构映射?在考虑时空与变化特性时,这种映射是否保持了对称性?从拓扑的角度来看,它是否能够保证同胚性或同痕性?对此我认为仍需打一个大大的问号。需要注意的是,在统计上保持一致相对简单,而在细致结构上保持一致则十分困难(当然,这或许可以成为未来的研究方向)。
此外,扩散模型存在一个前提假设,即信息的丢失与扩散符合高斯噪声加入的马尔科夫过程。然而,现实中的高斯分布和马尔科夫性是不存在的。前者只是大数法则下的近似,后者忽略了长程时间路径的关联。这一点非常重要,因为物理学需要考虑因果关系及路径,比如磁滞回线、比热、相变等。而一旦进入微观过程,统计意义上的定律可能并不具备强大的指导性,更何况存在“幸存者悖论”,AI 学习的数据本身就经过人类偏好的筛选,这使其与真实世界的差距进一步加大。
不过,我们也可以换个角度思考这个问题。人类所谓的“理解物理”,在某种程度上,仅仅是形成了一个可行的世界模型。正如所言:“所有的数学理论都是正确的,但一些是有用的;所有的物理模型都是错误的,但一些是有用的。”从这个角度来看,即使 Sora 的世界模型存在瑕疵,也只是因为当前的模型尚不完善。因此,认为 Sora 能够“理解物理”并非完全不成立。像 lecun 那样的严厉批评,其实也只是出于政治正确的考量。
以上是我的观点,欢迎大家在评论区提出意见和建议!