共计 1379 个字符,预计需要花费 4 分钟才能阅读完成。
这是一个值得深思的问题。
用另一种方式阐述,这个问题可归结为:基于扩散模型的 Transformer 结构(DiTs)是否能在现实场景中实现有效的泛化预测?
就个人而言,我认为这主要取决于预测的具体要求。如果需要进行大范围、粗略的短时间预测,那么这种方法的效果会相当出色;但若涉及小范围、细致、长时间的预测,结果可能会有显著偏差,甚至相差甚远。尽管如此,毫无疑问,这种方法展现了令人惊叹的潜力与可能性。
为何会有这样的观点呢?这与扩散模型所依据的物理图像密切相关。扩散模型致力于解决信息丢失的还原问题。以 Sora 为例,它基于特定的随机种子,在时空隐空间中根据提示信息生成若干点,接着利用扩散模型尝试在相邻的时空中还原这些点,通过解码器将其恢复到像素级别。
这一过程犹如作家创作小说,首先构思出几个关键情节,然后根据常识、人物关系及角色特性将这些情节串联起来,最终形成一个完整、引人入胜的故事。当然,情节的连贯性和故事的精彩程度则依赖于作家的创作能力。在 Sora 中,这一过程是通过训练扩散模型的还原步骤完成的,借助大量特征序列,而这些特征序列又是通过 Transformer 架构构建而成。关于 Transformer 的原理这里不再详细说明,简单理解为它是通过一定长度的 tokens/patches 将像素空间映射到不同的潜在空间维度,本质上是一种信息的压缩和分解。
然而,问题随之而来:Transformer 的分解映射是否能与真实世界形成有效的对应关系?从数学的视角来看,这种映射究竟是同态映射还是同构?在考虑时空变化的特性时,这种映射是否保持了对称性?从拓扑的角度来看,能否确保同胚性和同痕性?对此,我认为需要打上一个大大的问号。要知道,统计上的一致性相对容易实现,但在精细结构上保持一致则困难重重(当然,这也可能成为未来的研究方向)。
此外,扩散模型存在一个前提假设,即信息的丢失和扩散符合高斯噪声的马尔科夫过程。然而,现实中的自然状态并不存在完全的高斯分布和马尔科夫性。前者仅是在大数法则下的近似,而后者则忽略了长程时序路径的关联。这一点至关重要,因为物理学恰恰需要考虑因果关系和路径。例如,磁滞回线、比热、相变等现象,而当涉及微观过程时,统计意义上的定律可能并不具备强大的指导性,尤其是因为“幸存者偏差”,AI 学习的数据本身往往经过人类的偏好筛选,这使得其与真实情况之间的差距进一步扩大。
不过,我们也可以换个角度审视这个问题。从某种意义上来说,人类所称的“理解物理”,其实只是构建了一个能够有效运作的世界模型。正如所言:“所有的数学理论都是正确的,只是有些是有用的;所有的物理模型都是错误的,只是有些是有用的。”从这一角度来看,即使 Sora 的世界模型存在问题,也仅是因为当前模型尚不够完善。因此,尽管 Sora 能够在一定程度上“理解物理”,也不能完全否定其价值。像 lecun 那样的强烈批评,其实更多地是受到政治正确的影响。
以上是我的观点,期待大家在评论区提出宝贵的意见和建议!