共计 1859 个字符,预计需要花费 5 分钟才能阅读完成。
Sora 这一应用,似乎是 OpenAI 在商业化探索中迈出的重要一步。
借助 Sora 2 强大的生成高质量画面的能力,以及同步配音等功能,OpenAI 希望用户能够在平台上不断进行创作。然而,若谈及它是否能够撼动抖音的市场地位,我认为这几乎是不可能的。这是因为 Sora 目前的功能相对有限,且许多其他视频生成模型也具备类似的能力,难以形成明显的差异。

回想起 Sora 发布之初,确实令人震惊。但经过一年多的时间,其他视频生成模型逐渐迎头赶上,而当初的 Sora 也明显落后于该领域的尖端技术。
曾有观点认为 OpenAI 可能会暂停视频生成技术的开发,但 Sora 2 的推出打破了这一传言,向外界宣告了曾经的巨头重返舞台。
其模型的优势不容小觑
官方定义与功能
OpenAI 在官网上正式宣布推出其“旗舰级”的视频和音频生成模型 Sora 2,其物理准确性、可控性和真实感相较前代有了显著提升。
例如,在人物动作生成方面,Sora 2 能够提供更精确的控制,比如“一个男人在桨板上做后空翻”。

又如,生成体操运动员动作时,几乎看不到明显的瑕疵:
Prompt: a man does a backflip on a paddleboard

OpenAI 认为 Sora 2 可能是视频生成领域的 GPT-3.5,它能够完成以往视频生成模型难以实现的任务。
在可控性方面,Sora 2 也取得了突破,能够遵循多镜头下复杂的指令,并准确保持世界状态。它在现实主义、电影和动漫风格上均表现出色。
在动漫风格的生成上,能够控制不同镜头,生成的人物保持高度一致性:
Prompt: in the style of a studio ghibli anime, a boy and his dog run up a grassy scenic mountain with gorgeous clouds, overlooking a village in the distant background

不仅如此,它还能够同步生成对白、音效与环境声,实现“视听一体”的沉浸体验。
与此同时,OpenAI 推出了 Sora 应用 :一个类似短视频社交平台的应用,用户可以通过文字提示或图像输入,生成大约 10 秒的 AI 视频,并支持“Remix”创作及形象授权管理等功能。
Sora 应用目前在美国和加拿大以邀请制形式上线,未来计划扩展至更多国家和地区。
技术进步对比:Sora 与 Sora 2
与第一代 Sora 相比,Sora 2 在多个方面都实现了显著升级:

其中一个特别的功能是,在 Sora 应用中,用户可以进行角色共享创作。例如,当某用户上传自己的短视频映射形象后,其他用户可在获得授权后将其作为角色放入自己生成的视频中,且该角色本身享有“共创拥有权”,可随时撤回授权。

当然,OpenAI 在“负责任发布”方面也进行了周密布局,包括内容安全过滤、形象使用权限控制和滥用监测机制等。
尽管如此,Sora 2 依然存在一些问题,测试中发现:
总结
总体来看,Sora 2 在人物动作控制上确实有显著提升,尤其是在原生配音方面,个人认为优于 Veo3。
然而,Sora 是否能够留住用户,走出属于自己的道路,关键在于生态的构建与持续创新。仅靠技术亮点是远远不足的,如何围绕用户需求构建丰富的创作场景,形成稳定的内容生产闭环,才是决定其市场地位的核心因素。用户不仅关注技术是否领先,更在意体验是否流畅、使用是否便捷,这将是 Sora 未来需要不断完善的方向。