共计 1845 个字符,预计需要花费 5 分钟才能阅读完成。
2024 年 2 月,OpenAI 发布的 Sora 模型被视为视频生成技术的“GPT- 1 时刻”,它首次展示了视频生成的非凡效果,通过增强的预训练计算能力实现了物体持久性等基本功能。如今,OpenAI 再度突破技术极限,重磅推出 Sora 2,这一新模型被誉为视频生成领域的“GPT-3.5 时刻”。

此次 Sora 2 的宣传片,采用了 OpenAI CEO 的原型生成,效果可谓达到了极致。该模型不仅显著提升了视频生成的真实感和质量,还在物理世界的模拟、可控性和多模态生成方面实现了质的飞跃。
[视频内容] 本文包含视频内容
Sora 2 的主要优势:更真实的物理模拟
与之前的模型相比,Sora 2 在世界模拟能力上取得了显著的进展。它能够精准再现复杂的物理动态,例如:
奥运级别的体操动作:从桨板上的后空翻到猫咪抓物的三周半跳,Sora 2 都能够细腻地呈现浮力和刚度等物理特性。
[视频内容] 本文包含视频内容
真实的失败场景:以往视频生成模型往往表现过于乐观,会自动修正错误(如投篮不中自动变为命中)。而 Sora 2 则不同,如果篮球运动员投篮未中,篮球将真实地从篮板反弹,遵循物理法则。这种“模拟失败”的能力对于构建真实世界的模拟器至关重要。
[视频内容] 本文包含视频内容
隐式智能体行为:Sora 2 的“错误”更像是基于物理规律的自然反应,而非模型的缺陷,展现出更高的真实感和逻辑性。
[视频内容] 本文包含视频内容
这些特性使得 Sora 2 不仅仅是一个视频生成工具,还是一个接近现实世界的通用模拟器,为未来的 AI 理解物理世界奠定了基础。
强大的可控性与多样化风格生成
Sora 2 在可控性和风格多样性方面同样令人惊艳:
- 多镜头复杂指令:Sora 2 能够精准执行跨多个镜头的指令,同时保持世界状态的一致性,无论是写实风格、电影风格还是动漫风格,都游刃有余。
- 多模态生成:作为通用的视频音频生成系统,Sora 2 不仅能创建高质量的视频,还能生成逼真的背景音效、语音和音景,提供沉浸式体验。
- 现实元素的融合:用户可以通过“客串”功能上传自己的音视频片段,Sora 2 能够将其精准融入任何生成场景,无论是人类、动物还是物体,都能以惊人保真度展现。
[视频内容] 本文包含视频内容
这些功能让 Sora 2 成为一个高度灵活的创作工具,适合个人娱乐和专业影视制作的多种场景。
Sora 2 的社交应用:开启全新互动体验
为了让用户更直观地感受 Sora 2 的魅力,OpenAI 推出了一款全新的 Sora iOS 社交应用,以“客串”功能为核心亮点:
- 创作与混搭:用户可以在应用中创作视频,混搭不同的创作风格,甚至在可自定义的 Sora 动态中发现新的内容。
- 客串功能:只需录制一段简短的音视频,Sora 2 就能将用户或好友精准融入任何场景,带来前所未有的互动体验。
- 社交连接:OpenAI 内部测试表明,这款应用帮助员工结识新朋友,展现出其作为新型沟通方式的潜力。
[视频内容] 本文包含视频内容
目前,Sora iOS 应用已在美国和加拿大上线,计划迅速扩展至其他国家和地区。用户可通过应用内注册获取访问权限,并可在 sora.com 上使用 Sora 2。值得注意的是,ChatGPT Pro 用户还能够体验实验性的 Sora 2 Pro 模型,享受更高质量的生成效果。
[视频内容] 本文包含视频内容
免费体验与 API 支持
- 免费使用:Sora 2 初始阶段将免费开放,限制较为宽松,用户可以自由探索其功能。
- 持续可用性:Sora 1 Turbo 将继续保持可用,用户在 sora.com 上的创作内容也将被保存。
- API 支持:OpenAI 计划在 API 中发布 Sora 2,为开发者提供更多的创作可能性。
[视频内容] 本文包含视频内容
尽管 Sora 2 仍存在一些不足之处,但其表现已经足以证明:通过进一步扩展视频数据的神经网络训练,我们离模拟现实的目标越来越近。
[视频内容] 本文包含视频内容
Sora 2 不仅是视频生成技术的一个里程碑,更是通向通用世界模拟器和智能代理的重要一步。它将深刻改变内容创作、社交互动乃至整个社会的运作方式。正如 OpenAI 的使命所言,Sora 2 将为世界带来无限的欢乐、创造力和连接。
[视频内容] 本文包含视频内容