Sora为何无法成为全球标杆？

没有评论

共计 4662 个字符，预计需要花费 12 分钟才能阅读完成。

本文摘自微信公众号：王智远，作者：王智远，图源：AI 生成

在撰写了一篇关于空间智能的文章后，我分享给朋友们，探讨它如何利用虚拟空间数据来训练机器人，以帮助人类更好地理解这个世界。

不久后，一位朋友提出了一个有趣的问题：

文生视频是否也属于空间智能？因为它同样能创造虚拟场景，难道不应该是最优的选择吗？

这个问题引人深思，我的第一反应是想到了 Sora。

文生视频的“新星”迅速崛起，仅需简单的文字，就能生成视频。在短短两年内，字节跳动、腾讯等多个公司纷纷涉足这一领域。

然而，经过这段时间的观察，有人发现其并不如想象中完美，生成的人物形象往往会出现“恐怖谷”现象，甚至连 Facebook 的首席人工智能科学家 Yann LeCun 也曾批评道：Sora 只是在画面上做到好看，根本不懂得物理的基本规则。

因此，我开始思考：看似强大的 Sora，究竟为何无法成为真正的世界模拟器？它与空间智能之间的差距到底在哪里？

一

爱因斯坦曾说过一句经典的话：

“如果你不能简单地解释一件事情，那就说明你还没有真正理解它。”（If you can’t explain it simply，you don’t understand it well enough.）

因此，想要深入探讨，就必须从其深层的技术原理入手。

Sora 的核心技术是“扩散模型”（Diffusion Model）；它从一堆随机的噪音开始，通过人工智能逐步去除杂乱，最终生成清晰的图像，然后将这些图像串联起来形成视频。听上去像是魔法，实际上是数学原理在起作用。

此外，它还有一个得力助手——“Transformer”，这个词听起来耳熟。它的功能是处理序列数据，将零散信息连接成一体。在 Sora 中，它负责拆解文字指令，并将每一帧画面顺畅地连接在一起。

举个例子：

如果你输入“船在咖啡杯里航行”，Sora 会首先理解“船”和“咖啡杯”的概念，然后将船、水波荡漾和船身倾斜等相关元素组合在一起。

这一切都依赖于海量的视频数据和强大的计算能力，才能在几秒钟内生成几十秒的画面。

不过，是否想过，仅靠数据堆砌出来的结果，真的能理解物理世界吗？答案是否。问题在于其架构。

扩散模型擅长从数据中学习像素的规律，预测下一帧画面应如何呈现；而 Transformer 则使得帧与帧之间的衔接天衣无缝。因此，从视觉效果上看，Sora 似乎非常“聪明”，能够模仿真实视频的流畅感，但仔细思考后，问题就显露出来了。

船怎么可能装进咖啡杯里？我尝试输入“猫跳上桌子”，画面流畅得令人满意，但猫的腿却穿过了桌面，就像游戏中的碰撞缺陷。原因何在？

因为 Sora 的生成逻辑是“画得美观”，而非“画得准确”。

它既不了解重力如何影响物体，也不明白桌子为何会阻挡猫的腿。在生成“恐怖谷”人像时，更是显而易见，一放大脸部细节就崩溃，它只知道依靠像素的预测，却未考虑现实的法则。

因此，Sora 的优势与短板犹如硬币的两面。

视觉流畅是它的天赋，而不合理则是它的致命伤。正如 Yann LeCun 所说，它“不懂苹果为何会掉落”，我认为他的观点非常到位：Sora 的架构根本就没有想要理解物理世界的意图，只是希望将画面处理得尽可能真实。

既然 Sora 无法理解物理世界，那它是否能够成为世界模拟器呢？

我认为这有些困难。为何如此？

世界模拟器应该是一个能够执行物理规则的虚拟环境，以帮助机器人学习现实中的因果关系，但 Sora 生成的视频虽然看似真实，却缺乏真实性。

想象一下，像“船在杯子里”这样的场景如何教导机器人，机器人可能会误以为杯子能够容纳万吨巨轮，这根本没有实际应用价值。

因此，扩散模型和 Transformer 的目标是视觉生成，而非物理模拟，Sora 更像是一种艺术工具，追求“美观”的画面，而非“准确”的世界，这让我觉得 Sora 的局限在于其架构未能对准实际目标。

二

既然如此，问题来了：世界模拟器需要具备哪些关键特征？

我认为最基本的有三点：

1. 需要理解现实物品的规则，并将其转化为虚拟场景，不能偏离太多；

2. 理解物品间的相互影响；

3. 能够将不同的物品整合到一起，进行相互推理。

这样说有些抽象，不妨举个例子：

假设你在教一个机器人如何抓取物体，世界模拟器中的“虚拟杯子”必须准确模拟真实杯子的重量、材质和形状，这样才能让机器人了解到需要施加多大的力量去抓取。

如果模拟器对重力的表现不准确，机器人就可能抓得过紧或过松，导致物体掉落甚至损坏。

再来说说智能交通。在现实生活中，交通堵塞是一个大问题。要解决这一问题，需要依靠算法和数据分析，例如错峰出行。

如果有一个世界模拟器，但它无法模拟红绿灯的时长、车辆的速度，就无法预测何时何地会发生堵车，也无法进行错峰规划。

同样，如果模拟器不明白车辆的摩擦力，就无法判断车辆是否能在绿灯时顺利起步或红灯时及时停下；若无法理解车辆之间的相互作用，交通就会变得混乱，甚至可能导致事故。

因此， 世界模拟器的作用在于厘清复杂的物理规则和物体之间的关系，以便让机器人、智能交通等高科技项目更好地运作 。

相较之下，Sora 在这些关键特征上显然不足。尽管它在视觉生成方面表现出色，却无法满足世界模拟器对物理规则和因果关系推理的要求。

这种问题并非仅出现在 Sora 身上，一些国内的较大模型也存在类似的架构缺陷。比如在抖音上，我经常看到有人利用图生视频模型，结果人突然变成狗，虽然看起来搞笑，但明显不符合现实逻辑。

原因很简单，架构无法为世界模拟器提供真实的物理理解能力，因此在具身智能或其他领域的应用会受到显著限制。

可以得出一个结论：世界模型与文生视频的架构截然不同。世界模型旨在模拟真实世界，必须理解物理规律和现实逻辑；而文生视频主要用于生成画面，在逻辑和真实性上则不那么严格。

三

我认为，真正值得关注的，是更加重视物理规则建模和具备因果关系推理能力的模型。例如：李飞飞的 World Labs、黄仁勋的世界模型（Cosmos WFMs），以及群核科技的空间智能。

为何拿它们作为例子呢？有三个原因：

首先看目标，黄仁勋提出的 Cosmos WFMs（世界模型）旨在构建一个能模拟真实世界的“虚拟大脑”。这个大脑需要理解物理规则，了解物体的运动方式、力的作用，还要明白事件的前因后果。

李飞飞的 World Labs 目标是让人工智能真正理解世界。它通过模拟物理规则、因果关系和复杂场景，使得 AI 不仅能够“看到”，还能够“理解”世界。

例如，一个 AI 产品可以在虚拟场景中预测事情的发展，或根据不同情况做出合理决策。这种能力对提升机器人、自动驾驶等领域的智能化至关重要。

群核科技的空间智能，旨在将真实世界映射到数字世界，使得 AI 能够理解和应用这些数据，从而在家居设计、建筑规划以及 AR、VR 等领域帮助行业更高效地运作。

简单来说，它希望构建一个“数字孪生”的世界，让人、AI 和空间能够共同思考和行动，以解决实际问题。

既然明确了目标，再看看这三家在技术实现上的路径。

Cosmos WFMs 的技术实现路径是通过构建生成式世界基础模型（WFMs），结合高级分词器、安全护栏和加速视频处理管道等关键技术，为开发者提供高效的开发工具。

具体而言，它利用 NVIDIA NeMo 对基础模型进行调优，并通过 GitHub 和 Hugging Face 提供开源支持，帮助开发者生成高仿真的物理数据。

此外，Cosmos 还专注于多视角视频生成、路径规划、避障等任务，进一步提升物理 AI 在机器人、自动驾驶等领域的应用能力。

这些报告里的内容是否感觉难以理解？

通俗地说，他们所构建的系统能让 AI 像人一样理解路况、规划路线、避开障碍物，还能够生成多角度的视频，尤其适合应用于机器人和自动驾驶等领域。

李飞飞的 World Labs 的技术实现路径是开发一种从 2D 到 3D 的智能转化技术，使 AI 不仅能理解平面图像，还能生成完整的三维空间。

他们的系统从一张普通照片出发，推测出场景的 3D 结构，并补全图像中不可见的部分，最终生成一个用户可以自由探索和互动的虚拟世界。

简单来说，就是用 AI 将平面图像转变成立体空间，让人能够像在真实世界一样自由探索。这种技术在机器人导航、虚拟现实等领域尤其重要，因为这些领域需要“空间智能”来理解和适应复杂的 3D 环境。

群核科技在空间智能方面，简单来说：

他们运用 1 万台 GPU 服务器的计算能力，帮助家居和建筑行业快速生成大量 3D 模型，同时积累了大量 2D 和 3D 的设计数据；将这些数据整合到一个平台上，能够生成极为逼真的虚拟场景。

因此，企业可以利用这个平台来训练机器人，例如扫地机器人或自动驾驶设备，使它们能够在虚拟世界中模拟真实环境，学会如何运动和避障，从而变得更加智能。

因此，无论是黄仁勋的 Cosmos WFMs、李飞飞的 World Labs，还是群核科技的空间智能，它们的技术核心目标都是通过模拟真实世界的物理规则和因果关系，让 AI 在空间内进行训练，从而提升解决实际问题的能力。

四

我认为，要实现这一目标，离不开一个重要因素： 高质量的数据 。数据是构建世界模型和空间智能的根基，但它也是发展过程中的最大“障碍”。

为什么会这样？

我们提到的具身智能有些抽象，不如说是“虚拟训练”。虚拟训练有两个重要方面：

一个是生成式的海量数据。就像 GPT 等文字模型，依赖超大规模的数据和强大的算力进行学习和推理；另一个则是真实数据。比如，枕头的尺寸、重量、材质，或者光线如何反射、物体如何碰撞，这些都属于物理交互场景。

真实数据的来源于现实世界，直接决定了虚拟训练是否能够模拟出符合实际逻辑的行为和反应；换句话说，虚拟训练需要两种数据：一种是“虚拟生成”的大数据，另一种是“真实场景”的物理数据，而后者往往成为发展的瓶颈。

原因很简单，虽然文生视频、文生图等生成式技术能够创造丰富的内容，但获取真实的物理规则和精确的交互细节却非常困难。

例如，文生视频能够生成一个“滚动的球”，但它可能无法准确模拟球在不同材质地面上的摩擦力、弹跳高度或碰撞反应。

那么，真实场景的数据从何而来呢？只能通过真实世界来获取。

借助传感器、摄像头、激光雷达等设备，从现实环境中采集数据；当你驾驶时，传感器会记录车辆的运动轨迹、力度变化、光线反射、车辆间距、行人行为，甚至天气对路况的影响。这些信息会被上传至平台，用于分析和训练。

但仅有数据是不够的。

平台的数据不能确保下次操作的准确性，还需要在虚拟环境中进行大量的训练；自动驾驶汽车需要在虚拟环境中反复模拟行驶，可能需要执行成千上万次，直到能够应对各种复杂场景，才能应用于现实世界。

理解这些后，你也会意识到，这不仅是自动驾驶和机器人领域的问题，其他行业同样如此。

无论是在医疗、制造还是农业，世界模型和空间智能都需要大量的真实数据作为支撑，并且必须通过虚拟环境的反复训练来验证和优化其能力。

换句话说，不论是自动驾驶、机器人导航，还是其他行业的具身智能应用，核心挑战都是如何获取高质量的真实数据，再通过虚拟与现实的结合，使 AI 真正能够解决实际问题；这才是未来技术落地的关键。

谁掌握底层架构，谁拥有数据，谁就能在竞争中脱颖而出。

本文摘自微信公众号：王智远，作者：王智远

本内容为作者个人看法，不代表虎嗅的立场。未经许可不得转载，授权事宜请联系 hezuo@huxiu.com

正在改变与渴望改变世界的人，都在虎嗅 APP

来源：今日头条

原文标题：为什么 Sora 不能成为世界模型？– 今日头条

原文链接：https://toutiao.com/group/7478397574785827380/

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

Sora 人工智能扩散模型文生视频空间智能

发表至： AI大模型

2025-10-05

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

2025年AI新纪元！清华大模型引爆科技狂潮！

太乙秘籍怎么用？3个技巧让你事半功倍！

2024年人工智能大模型龙头股票及应用场景全面解析指南

2024年中国AI大模型综合评价：从排名、课程到市场机会的深度分析

wordpress插件太多不会选？这5款必备插件让你的站点效率翻倍！

2025年AI大模型突破性进展背后开发者自曝致命缺陷引业界哗然

2024年最新国内AI大模型排行榜及其应用前景深入解析

李彦宏揭秘：文心一言的真实表现如何？大模型的幻觉已成过去！

Sora为何无法成为全球标杆？

“数字人”高管的管理之道：成效与挑战分析

周报AI写作崛起：一文告诉你如何轻松生成高效周报，难道真的能取代人类？

写作AI颠覆传统，创作从此不再孤单！2025年全新生成写作AI强势来袭，助你轻松实现写作梦想！

快手全新发布AI编程产品矩阵：工具、模型与平台三合一，开启智能编程新时代！

AI写作门槛高低成关注热点，创作者是否准备好迎接挑战？

AI编程助手的技术演进与实践：从辅助到协同的未来之路｜AICon 上海

30天AI编程挑战：我如何克服艰难与成长

AI写作摘要引发热议！自动化是否真正能提高创作质量？