Sora如何逆袭！实测揭示文生视频大模型的降维打击策略

共计 2675 个字符，预计需要花费 7 分钟才能阅读完成。

OpenAI的文生视频模型Sora自发布以来，影响力持续发酵。

2月18日，新京报贝壳财经的记者对Sora与其他文生视频模型进行了比较测试，结果显示，Sora在视频生成的时长和质量上均远超同类产品：其他模型通常只能生成3至4秒的视频，而Sora则能生成最长达1分钟的视频，其画面清晰度和稳定性也更符合描述。

然而，随着Sora生成视频的增多以及一些技术细节的披露，业界对其进行了全面审视。虽然赞誉声不断，但也有不少人指出Sora生成视频中的不合理之处。

文生视频比较实测：Sora从“动图”跃升为“短片”

当OpenAI介绍Sora时，提供的第一个提示词是：“一个时尚的女性走在东京的街头，街道上闪烁着温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克和红色长裙，脚踩黑色靴子，手提黑色钱包，戴着太阳镜，涂着红色口红，自信而悠然地走着。街道湿滑，反射出五彩斑斓的灯光，行人络绎不绝。”

在Sora发布之前，文生视频领域的公司主要有Pika和Runway等。为了验证Sora的性能，新京报贝壳财经记者将上述提示词输入了Pika和Runway的Gen-2video模型进行测试。

以上是使用Pika生成的视频截图。

这是使用Runway旗下Gen-2video生成的视频截图。

这是OpenAI官网上Sora生成的视频。

贝壳财经记者发现，Pika在相同提示词下，仅生成了3秒的视频，而Gen-2video则能够生成4秒视频。Pika生成的视频显示“时尚女性”的背影，无法展现她的“太阳镜和红色口红”，虽然对于“潮湿反光的街道和五彩斑斓的灯光效果”有不错的表现，但整体画面依然模糊。

Gen-2video则因“无法输入这么多提示词”而弹出提示，最终生成了一个4秒视频，该视频在细节上明显优于Pika，符合提示词中的人设和场景描述，包括“街道、人群、黑色钱包”等。

然而，无论是Pika还是Gen-2video，都忽略了“红色长裙”这一重要细节。通过观看视频，记者还注意到这两段视频都显示出AI生成的痕迹，特别是Gen-2video中人物的面部形状略有扭曲，这正是AI生成视频常见的缺陷：难以保持同一人物的连贯性。

Sora则完美地展现了所有提示词的细节，且保持了人物的连贯性，使得视频几乎可以以假乱真。不过，若仔细观察，会发现人物在某些帧的脚步动作略显不自然，同时背景广告牌虽然看似日文，但由于AI技术的局限性，其生成的“日文”并不准确，这些都是AI视频生成的特征。

尽管如此，Sora依然在性能上显现出与其他文生视频模型的明显差距。

在谷歌和推特工作过的AI创业者Gabor Cselle也发布了使用相同提示词的结果，尝试在其他四个文生视频模型中“重现”Sora“穿越下雪的樱花东京街道”的场景，他指出“其他模型无法与Sora相比”。

这是Gabor Cselle的社交账号截图。

在国内，许多AI从业者也直观感受到了Sora的影响。

清华大学沈阳教授的团队专注于AI在各个领域的应用，并一直在使用AI模型进行文生视频的制作。沈阳教授在2月17日于社交平台上发布了一段团队成员花费两天制作的“半成功”AI视频，并表示“从中可以看出与Sora的差距，我会让她暂时放弃这个项目，等算法进步后再进行重做。”

对于Sora问世后，AI视频制作的未来，沈阳表示“慢慢来，继续前进就好。”

理解物理世界颠覆影视与游戏行业 Sora算是“通用世界模型”吗？

那么，Sora为何在视频生成质量上显著优于同类产品？OpenAI在其官网上指出，Sora是一个能够理解和模拟现实世界的模型，认为这一能力将是实现通用人工智能的重要里程碑。不过，Sora依然存在许多不足，仍处于世界模型研究应用的初级阶段。

究竟什么是世界模型？据贝壳财经了解，Runway公司去年12月提出了开发通用世界模型（General World Model）的计划，希望利用其Gen-2模型来模拟整个世界。“我们相信，人工智能的下一个重大突破将来自对视觉世界及其动态的理解，这也是我们围绕通用世界模型展开长期研究的原因。”

从实际效果来看，OpenAI通过Sora已经部分实现了这一目标，只有理解现实世界的运行法则，文生视频模型才能生成更加真实的视频。英伟达的高级科学家Jim Fan对此表示，Sora是一个数据驱动的物理引擎，“它模拟了许多不同的世界，无论是真实的还是虚构的。该模拟器通过去噪和梯度学习，掌握了复杂的渲染、直观的物理法则、长期推理以及语义理解。”

理解现实世界的物理法则，是实现通用人工智能这一“终极目标”的必经之路。

对此，科技界的许多人都发出了感慨，马斯克在社交平台上简单评论道：“GG世界”（GG是网络游戏用语，意指“游戏结束”）。

360公司董事长周鸿祎则在朋友圈中提到，一旦AI能够接入摄像头，观看并理解世界上所有电影，其对世界的理解能力将远超通过文字学习的水平。在这种情况下，通用人工智能的实现将不再是遥不可及的梦想。周鸿祎甚至预测，这一时刻可能会在一两年内到来，而不是十年或二十年。

在现实中，越来越多的人担忧文生视频模型可能会对影视和游戏行业造成直接冲击。美国旧金山的早期投资人Zak Kukoff预测，五年内，甚至一个不到5人的团队都可能利用文生视频模型制作出一部票房超过5000万美元的电影。

值得一提的是，近期大受欢迎的游戏《幻兽帕鲁》的开发团队仅有四人，许多人质疑该团队是否使用了AI生成技术来降低成本。而根据OpenAI最新发布的Sora技术报告，Sora能够模拟视频游戏的数字化过程，同时能够在控制Minecraft角色时进行高质量的动态渲染。这意味着，个人开发游戏的门槛可能会进一步降低。

前阿里巴巴副总裁、Lepton AI创始人贾扬清则评价Sora“真是太厉害了”，他认为Sora的出现可能会引发对OpenAI公司的收购潮。贾扬清预测，大模型市场将长期保持一种封闭的寡头格局，而开源大模型需要时间才能追赶上。对于小型算法公司而言，要么在算法上与OpenAI抗衡，要么深耕特定应用领域，或者选择开源之路；同时，基础设施的需求将会继续上升。

记者联系邮箱：luoyidan@xjbnews.com

新京报贝壳财经记者罗亦丹

编辑岳彩周

校对卢茜

来源：今日头条

原文标题：Sora 如何降维打击其他文生视频大模型？记者实测对比 – 今日头条

原文链接：https://toutiao.com/group/7336907127136485928/

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完