清华与星动纪元联手推出首个开源AIGC机器人大模型「Sora」!

共计 2908 个字符,预计需要花费 8 分钟才能阅读完成。

机器之心发布

机器之心编辑部

自 2023 年推出的 Sora,到如今的可灵、Vidu 和通义万相,AIGC 生成技术如同魔法一般,席卷全球,开启了人工智能应用的广阔前景。

与此同时,AIGC 生成技术在具身智能机器人的表现也令人惊叹不已。

例如,“请给我盛一碗热腾腾的鸡汤”,以前这句话可能让你看到一个感人至深、栩栩如生的视频,而如今,如果身边有一个机器人,竟然能真的为你盛汤!

这一切的技术支持来自清华大学叉院的 ISRLab 及星动纪元——他们的 AIGC 生成式机器人大模型 VPP(视频预测策略)在 ICML Spotlight 中获得了高分!通过预训练的视频生成大模型,AIGC 的神奇从数字空间延伸至具身智能的物理领域,犹如“机器人界的 Sora”!

VPP 通过大量互联网视频数据进行训练,直接模拟人类的动作,这样大大减少了对高质量真实机器人数据的需求,也能在不同的人形机器人之间灵活切换,这无疑将加速人形机器人的商业化进程。

据说,在今年的 ICML2025 会议上,Spotlight 论文的评审难度极高,在超过 12000 篇投稿中,仅有不到 2.6% 的论文获此殊荣,VPP 便是其中之一。

VPP 将视频扩散模型的泛化能力引入通用机器人操作策略中 ,巧妙地解决了扩散推理速度的问题,创新性地使得机器人能够实时进行未来预测和动作执行,这极大提升了机器人的策略泛化能力,同时该项目现已 全部开源!

  • 论文标题:视频预测策略:具有预测视觉表示的通用机器人策略,ICML 2025 Spotlight
  • 论文地址:https://arxiv.org/pdf/2412.14803
  • 项目地址:https://video-prediction-policy.github.io
  • 开源代码:https://github.com/roboterax/video-prediction-policy

VPP 被誉为机器人领域的“Sora”

目前,AI 大模型的研究主要有两大主流方向,分别是基于自回归的理解模型与基于扩散的生成模型,代表性的作品包括自回归的 GPT 和生成式的 Sora。

  • GPT 进入具身智能领域的思维转变,体现在以 PI(物理智能)为代表的 VLA 技术上,这一技术来源于视觉语言理解模型(VLM)的微调,尤其在抽象推理和语义理解方面表现优异。
  • 当生成技术与机器人结合时,便诞生了如 VPP 这样的生成式机器人大模型。

在人工智能的领域中,著名的莫拉维克悖论(Moravec’s paradox)指出:尽管高级推理功能(如围棋、数学)表现容易,但感知和执行的挑战却更为艰巨(例如家务活)。VLM 在高级推理方面表现突出,而 AIGC 生成式模型则在细节处理上更为擅长。VPP 的优势在于其基于 AIGC 视频扩散模型,在底层感知和控制上展现出独特能力。

如图所示,VPP 学习框架分为两个阶段,最终实现基于文本指令生成视频动作。第一阶段利用视频扩散模型进行预测性视觉表征的学习;第二阶段则通过 Video Former 和 DiT 扩散策略进行动作的学习。

1. 预见未来:使机器人在行动前“心中有数”

过去的机器人策略(例如 VLA 模型)通常只能基于即时观察进行动作学习,机器人在执行前需要理解指令和环境。而 VPP 可提前预测未来场景,使机器人能够“预见答案”进行行动,显著提升了其泛化能力。

VPP 视频的预测结果与机器人实际执行的结果几乎完全一致。被视频生成的内容,机器人都能顺利执行!

2. 高频预测与执行:提升机器人执行速度“更进一步”

尽管 AIGC 视频扩散模型能够生成逼真的视频,但常常需要较长的推理时间。星动纪元研究团队发现,预测未来的每个像素并非必要,通过有效解析视频模型的中间层表征,单步去噪的预测就能够蕴含丰富的未来信息。这使得模型的预测时间缩短至 150 毫秒,预测频率达到 6 -10 赫兹,结合 action chunk size = 10,模型的控制频率可超过 50 赫兹。

如图所示,单步视频扩散模型的预测已包含了大量未来信息,足以支持高频的预测与执行。

3. 跨本体学习:确保机器人先验知识流通“无阻碍”

机器人数据的利用在不同本体之间是一项复杂的挑战。VLA 模型的局限在于只能处理维度低的动作信息,而 VPP 则可以直接学习来自各种形态机器人的视频数据,从而避免了维度不一致的问题。如果我们将人类视为一种机器本体,VPP 还能够直接学习人类的操作数据,这样大幅降低了数据获取的成本。同时,视频数据能够提供比低维动作更为丰富的信息,从而显著提升模型的泛化能力。

VPP 能够从跨本体的丰富视频数据中学习,而 VLA 仅限于处理维度不一致的低维动作信号。

4. 基准测试的领先:让机器人性能独占鳌头

在 Calvin ABC-D 基准测试中,VPP 达到了 4.33 的任务完成平均长度,已接近满分 5.0。相比于之前的技术,VPP 的表现提升了 41.5%。

左侧图展示了 Calvin ABC-D 任务的平均长度对比,右侧图则是 Real-World Dexterous Hand 任务的成功率对比。可以明显看出,VPP 在这两项指标上均表现优异,仿真环境中的任务完成平均长度为 4.33,真实设备测试的成功率达到了 67%,远超其他方法。

5. 真实环境中的灵巧操作:让机器人灵活应对各种任务

在真实环境的测试中,VPP 模型展示了卓越的多任务学习和泛化能力。在星动纪元的单臂 + 仿人五指灵巧手 XHAND 平台上,VPP 能够通过一个网络完成超过 100 种复杂的灵巧操作任务,例如抓取、放置、堆叠、倒水以及工具使用等,而在双臂人形机器人平台上,能够完成 50 种以上的复杂灵巧操作任务。

6. 可解释性与优化调试:使机器人操作透明可控

VPP 的预测视觉表示在某种程度上是可理解的,开发者可以通过预测的视频提前识别可能失败的场景和任务,从而进行有针对性的调试和优化,而无需依赖真实世界的测试。

相较于 VLA 模型,后者是一个完全端到端的系统,开发者在调试和优化时需要大量真实世界的测试,才能找到模型中的漏洞,这无疑会耗费大量的时间。

总结

探索 VPP 项目的潜力与开发者指南

与此同时,正如在大型模型领域中,LLM 与生成模型的共存与相互融合,作为首个 AIGC 生成式机器人大模型的 VPP 也将与 PI 等 VLA 大模型彼此促进和借鉴。

在行业持续推动开源优质模型和技术的背景下,我们有理由相信,机器人技术将迎来崭新的发展阶段,而具身 AGI 也会在这条创新路径上不断前行,逐渐拉近与我们的距离,未来的智能世界正向我们走来,蕴含着无限的可能性。

以下是 VPP 项目开源部署的实用提示,供开发者们参考:

  1. 所有实验均在单个节点(8 卡 A800/H100)上完成;
  2. 详细的操作指南可以在开源的 GitHub 页面上找到;
  3. 实验仿真平台采用标准的 Calvin abc-d Benchmark;
  4. 实验的真实平台包括星动纪元的仿人五指灵巧手星动 XHAND1 以及全尺寸的人形机器人星动 STAR1。
来源:今日头条
原文标题:机器人界「Sora」来了!清华、星动纪元开源首个 AIGC 机器人大模型 – 今日头条
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-11-03发表,共计2908字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!