Sora的震撼力有多强？四大视频模型与五大场景深度测评！揭秘OpenAI如何连续推出“绝对神器”！

共计 6432 个字符，预计需要花费 17 分钟才能阅读完成。

每经记者：文巧郑雨航

也许，OpenAI 唯一的对手就是 OpenAI 自己。

在 2022 年底，OpenAI 发布了其人工智能聊天机器人 ChatGPT，开启了大型模型领域的竞争新篇章。而在 2024 年 2 月 15 日，视频生成模型 Sora 的推出，再次引发了科技界的热潮。

Sora 的问世将视频内容生成提升到了一个新高度，逼真的视频效果让公众重新审视 AI 的能力界限。其出现如同一颗震撼弹，瞬间引爆了全球的科技讨论。

业内专家普遍认为，Sora 的到来标志着技术的重大突破。英国皇家工程院和欧洲科学院院士许彬（Pan Hui）在接受《每日经济新闻》采访时指出，“Sora 在视频生成的质量上无可匹敌，其生成的视频可以从特写镜头切换到全景，且机位变化多样。”

需要强调的是，文生视频的大模型并非全新领域。为了更直观地展示 Sora 的能力，《每日经济新闻》记者使用 OpenAI 官方发布的五条 Sora 视频提示词，对 Pika、Runway 和 PixVerse 等其他模型进行了测试，并对比了其生成结果，场景涵盖了人物特写、电影预告片等五个类别。

对比结果表明，Sora 在生成视频的长度、连贯性及视觉细节等方面展现了明显的优势，几乎达到了“降维打击”的效果。

从 ChatGPT 到 Sora，OpenAI 为何能够连续推出如此强大的工具？

加州大学伯克利分校计算机科学博士、知乎作者 SIY.Z 分析认为，“如果用一个词来概括 OpenAI 的核心技术，那就是‘扩展法则’——即如何确保模型越大、数据越多，效果越好。”从文本生成模型 GPT、文生图模型 DALL·E 到文生视频模型 Sora，OpenAI 似乎已构建出一条自己的 AGI 技术路线。

五大场景实测：

Sora 在时长等四个维度上实现“降维打击”

2 月 15 日，OpenAI 正式发布了文生视频大模型 Sora。演示视频发布后迅速引发业界热议，部分网友甚至感叹“要失业了”。

华大集团的 CEO 尹烨在一篇文章中写道，“从这一时刻起，能够拟合更多真实物理定律的数字孪生世界进入了人类社会。我愿意将其比作 AI 发展的牛顿时代。”

Sora 的文生视频能力到底有何独特之处？

由于 Sora 尚未开放测试账号，《每日经济新闻》记者采用 OpenAI 官方公布的五条提示词，分别在街头、卡通动画、人物特写、动物特写和电影预告片这五个场景中对同类模型 Runway、Pika 和 Pixverse 进行了效果测试。并将 OpenAI 官方发布的 Sora 视频与上述三个模型的生成结果进行了对比。

效果测试表明，Sora 在视频的时长、连贯性及视觉细节方面表现出明显优势，几乎达到“吊打”的程度。

许彬在接受采访时指出，“Sora 的核心优势在于生成高清晰度的长视频。不论是清晰度还是时长，目前都是第一。” 他还补充道，OpenAI 更专注于照片写实主义的技术，尽管现在谈论其是否会引领新潮流尚早，但 Sora 在视频生成质量上绝对无可匹敌。

不过，值得注意的是，本次效果对比仅基于五个场景的提示词，场景和提示词的数量相对有限，且不同模型生成的结果可能存在随机性。

一位技术从业者向记者表示，尽管 Sora 与其他文生视频模型的对比结果非常明显，但不排除 Sora 的视频是 OpenAI 经过多次生成后选取的最佳结果，因此展示效果相对优越。

（1）视频时长更长

在与 Runway、Pika 和 PixVerse 的比较中，Sora 生成的视频平均长度接近 16 秒，最长可达 20 秒，而其他三个模型生成的视频时长均在 3~4 秒左右 。Sora 最长可以生成长达一分钟的视频，能够更完整地呈现视频内容，更适合制作短片、广告及其他应用。

（2）视频连贯性更强

Sora 生成的视频实现了无缝过渡、自然摄像机移动和流畅角色动画，极大增强了观看体验。 相较之下，其他模型生成的视频经常出现场景突变、画面不流畅等问题，影响观看感受。

许彬进一步表示，“Sora 可以灵活变换视频视角，生成的视频可以从特写镜头切换到全景，保证画面中的人物和物体的一致性。” 一致性一直是视频生成领域的一项挑战，而 Sora 在这方面表现优异。

（3）视觉细节更丰富

此外，记者发现，Sora 生成的视频在视觉细节上相当丰富，物体纹理清晰，色彩真实，整体视频质量更高。相比之下，其他模型生成的视频往往显得模糊，细节不足，色彩不够鲜艳。

例如，在生成的“女人眨眼”的视频中，Sora 对女性眼部的特写极为到位，从眉毛、睫毛、眼皮褶皱、眼袋、卧蚕和细纹的细节来看，已经达到了以假乱真的效果。

（4）更好地满足不同场景需求

通过上述五种不同场景的展示效果可以看出，Sora 显然更能满足不同创作者的需求，无论是科幻场景、动画角色，还是模拟真实场景，都能轻松实现。

华鑫证券的研究报告指出，Sora 的核心技术基于 OpenAI 在自然语言处理和图像生成方面的深厚积累 ，与 Runway、Pika 等相比，Sora 在生成视频的真实感和细节表现上具有标志性价值。文生视频并不是全新概念，但 Sora 的推出有望提升 AI 多模态的热度，值得关注 AI 多模态应用对数字内容生产与交互新模式的塑造，将为视觉行业带来新机遇，从文字、3D 生成、动画、电影、图片、视频到剧集等方面，推动内容消费市场的繁荣发展。

从 GPT 到 Sora，OpenAI 打通 AGI 技术栈

在 Sora 的身上，我们可以看到 OpenAI 继承了以往大语言模型训练的成功经验。

Sora 视频的真实感和连贯性令人叹为观止，其背后是该模型的两项核心突破。

首先，Sora 采用了 Diffusion Transformer（DiT，或称扩散型 Transformer）这一底层架构。

OpenAI 的文本模型，例如 GPT-4，采用的正是 Transformer 模型，传统的文本到视频模型通常基于扩散模型，而 Sora 采用的 DiT 架构则将 GPT 与传统扩散模型结合在一起。

根据 OpenAI 官网发布的 Sora 技术报告，DiT 架构的理论基础源于一篇名为《Scalable diffusion models with transformers》的学术论文，该论文于 2022 年 12 月由伯克利大学的研究人员、现 Sora 团队的技术负责人 William (Bill) Peebles 与纽约大学的研究人员谢赛宁共同发表。

在 Sora 发布后，谢赛宁在 X 平台上提到，“当 Bill 和我参与 DiT 项目时，我们并未专注于创新，而是重视简洁性（Simplicity）与可扩展性（Scalability）。”他表示，“可扩展性是论文的核心主题， 优化后的 DiT 架构运行速度远超 UNet（传统文本到视频模型的技术路径）。更重要的是，Sora 证明了 DiT 缩放定律不仅适用于图像，现在也适用于视频——Sora 复现了 DiT 中观察到的视觉缩放现象。”

其次，Spacetime Patch 也是 Sora 创新的核心之一。 在这一方面，Sora 的设计思路与 GPT- 4 一致。

Patch 可以视为 Sora 的基本单元，是视频的片段，一个视频可以看作是不同 Patch 按照特定顺序组合而成。就像 GPT- 4 的基本单元是 Token，而 Token 是文字的片段。GPT- 4 被训练以处理一系列 Token，并预测下一个 Token。Sora 遵循相同逻辑，可以处理一系列 Patch，并预测序列中的下一个 Patch。

许彬向记者解释道，“将视频数据划分为一个个小块（patches），使得模型对图像的理解与对文字的理解相似。参考过往 GPT 的表现，GPT 对文本的语义理解非常细腻，将同样的原理应用于视频上，可以提升数据的灵活性和模型的最终表达能力。”

正如谢赛宁所提的“可扩展性”一样，加州大学伯克利分校计算机科学博士、知乎作者 SIY.Z 在知乎上写道，“用一个词概括 OpenAI 的核心技术，我认为是‘扩展法则’——即如何确保模型越大、数据越多，效果越好。简而言之，Sora 的贡献在于在充足的数据、优质的标注和灵活的编码下，扩展法则在 transformer 与 diffusion 模型架构上得以延续。”

在他看来，数据、标注、编码及底层架构均来自于之前大模型的成功经验。谢赛宁在 X 平台上曾提到，Sora 还有两个关键点尚未被提及，一是关于训练数据的来源和构建，二是与（自回归的）长视频生成相关的技术细节。

可以说，对于目前全力投入 AGI 的 OpenAI 而言，从文本生成模型 GPT、文生图模型 DALL·E 到文生视频模型 Sora，OpenAI 或许已经构建出了一条自己的 AGI 通用技术路线。

值得注意的是，基于以往成功经验的 Sora 路线，可能会成为接下来文生视频模型的新范式。早在 1 月，一位前阿里 AI 专家在 X 平台上表示，“我认为，Transformer 框架和 LLM 路线，将是 AI 视频的突破口和新范式，它将使 AI 视频更加连贯、一致，且时长更长。目前的 Diffusion+Unet 路线（如 Runway、Pika 等）只是暂时的解决方案。”

800 亿美元！“资本狂欢”，OpenAI 估值九个月翻倍

从聊天机器人 ChatGPT，到文本转图像模型 DALL·E，再到近期的文本转视频模型 Sora，OpenAI 在风口上成为资本市场的关注焦点。

实际上，文生视频大模型并不是全新的领域，许多模型早已进入公众视野，例如 Stability AI 的 Stable Video Diffusion、Runway 的 Gen-2 Video、谷歌的 Lumiere、Meta 的 Make-A-Video、Pika 以及 PixVerse 等。

其中，Pika 在去年 11 月正式发布 Pika 1.0 后掀起全球热潮，其创始人郭文景也名声大噪，Pika 1.0 被称为 Runway Gen- 2 的最强竞争对手。然而，随着 Sora 的火爆出圈，其所代表的新技术路线，文生视频领域的格局恐怕将被重新定义。

一方面，核心技术构成了一道鸿沟——Diffusion Transformer 和 Spacetime Patch 并不算新鲜技术，但只有 OpenAI 成功推出了 Sora。从文生视频的实测对比来看，Sora 确实实现了降维打击。

另一方面，从估值和融资规模来看，依靠微软支持的 OpenAI 在 AI 初创公司中处于明显领先地位。其产品一经投放市场，就令行业震惊于其强大的迭代能力，这与其背后的资金投入密不可分。

Sora 的火爆引发了资本市场的关注，最新消息显示，OpenAI 的估值已突破 800 亿美元，值得一提的是，该公司的估值在短短九个月内翻了一番。

除了各种 AI 大模型产品外，OpenAI 的 CEO 山姆·阿尔特曼还将目光投向了半导体领域。据报道，阿尔特曼正在与潜在投资者、半导体制造商和能源供应商等各方接触， 预计将融资 700 亿美元打造芯片帝国。

在技术与资金的双重支持下，OpenAI 未来可能会继续保持领先地位。

与之相比，截至目前，Runway 的累计融资已超 2.5 亿美元。TechCrunch 报道称，Runway 的估值在去年 6 月底达到 15 亿美元，其投资者包括谷歌、英伟达、Salesforce 等。

Pika 的估值目前接近 2 亿美元，这家仅有四人的初创公司背后有着豪华的投资人阵容，包括前 Github CEO Nat Friedman、Quora 创始人 Adam D’Angelo、OpenAI 创始成员 Karpathy、Perplexity CEO 等。

去年 11 月，Stability AI 的估值达到约 10 亿美元。然而，Stability AI 在今年也面临资金压力，2023 年 11 月有消息称该公司因财务困境正在寻求出售。此外，其重要投资者美国对冲基金 Coatue Management 曾在去年 10 月致信管理层，要求 CEO 埃马德·莫斯塔克辞职。

内容创作领域将迎来颠覆

监管问题迫在眉睫

许多人认为，Sora 的出现将改变一系列创意产业，包括电影制作、广告、图形设计、游戏开发、社交媒体、影响力营销乃至教育科技等领域都将受到深远影响。

“ 最直接的影响是视频制作领域。 无论是电影还是人人可参与的短视频，许多危险且难以拍摄的场景都能借助 AI 完成。这大大改变了视频创作的逻辑，降低了创作门槛。即使不具备视频拍摄能力的人，也能通过自己的想象力成为优秀的视频创作者。”许彬说道。

同时，他指出，Sora 及其他类似的 AI 视频模型将在多个行业展现出巨大的商业潜力和市场需求。“ 包括媒体与娱乐、银行、金融服务与保险、零售及医疗保健等行业都将从生成式 AI 的进步中获益。 这些技术的应用不仅能优化营销与销售活动，提升客户服务，亦可加强产品开发和风险管理。”

许彬表示，“生成式 AI 在这些领域的变革潜力显示了广泛的市场需求及跨行业的巨大经济价值，预计将为各行业创造 2.6 万亿到 4.4 万亿美元的价值。”

此外，外媒报道，光速印度合伙人 Hemant Mohapatra 将 Sora 的推出比作潘多拉的魔盒开启，预示着一切都将发生改变。“其生成的视频质量之高，将让库存视频生成公司面临威胁。”

二级市场的动荡也印证了这一说法。Sora 发布的次日，美国软件公司 Adobe 股价暴跌超过 7%；美国的图片库、素材及编辑工具供应商 Shutterstock 股价下跌超过 5%；几周前发布“文生视频”工具 Lumiere 的谷歌母公司股价下跌 1.58%。三家公司在短短一天内总共蒸发近 480 亿美元市值。

另一方面，随着 AI 技术的迅猛发展，有关其风险的讨论也未曾停歇，如何防止 AI 被滥用或误用、如何避免其对人们认知产生负面影响，成为业内许多专家探讨的重点之一。

“视频生成技术很容易被应用于诈骗领域。许多地方都在使用人脸识别，而视频生成技术让过去的安全措施变得脆弱。 为了降低这些技术可能带来的风险，建立健全的道德规范、实施严格的数据隐私措施，并确保 AI 模型的开发和使用透明至关重要。”

许彬告诉记者。

随着 AI 的不断发展，各国也在努力加强对 AI 的监管。早在去年 10 月，美国白宫首次发布针对 AI 的行政令，计划制定全面的监管标准。去年 11 月，中国、美国、英国、欧盟等多国代表在首届全球人工智能安全峰会上签署了《布莱切利宣言》。

许彬认为，未来的重点可能会转向增强（AI）能力，同时确保以道德和负责任的方式开发和使用这些技术，以最大化其对各行业的积极影响。“AI 视频模型正在朝着更负责任的 AI 实践方向发展，（需要）通过投资研发来增强 AI 应用的安全性和保障。积极主动地解决这些社会和伦理问题是可能的。”

记者手记丨从旧架构中实现新突破，OpenAI 的边界不止于此

OpenAI 的每一次新动作几乎都会在科技圈引发震动。尽管文生视频模型并非首次发布，但无疑，Sora 带来了质的飞跃，其在时长、连贯性和视觉细节方面的创新是前所未有的。

而让我惊讶的是，在查阅相关技术解读时发现，Sora 的底层架构并非全新技术，例如，DiT 架构和 Patch 的相关论文早在去年就已发布。从 Sora 身上，我们也能看出 OpenAI 以往大语言模型训练的成功经验。然而，只有 OpenAI 能在旧架构中实现新的突破，这或许意味着，无论是 OpenAI 本身，还是 AI 算法，它们的边界远不止于此。

Sora 再次展示了 AI 的无限可能，行业的颠覆也可能随之而来。不过，有技术从业者也向记者指出，观察 Sora 的提示词后发现，文生视频模型的使用门槛较高，用户需具备较强的描述能力。若要完成一部高质量的作品，对用户的审美能力也提出了较高要求。

与此同时，AI 风险的问题依然值得关注，技术的进一步提升可能会为 AI 诈骗等犯罪行为提供温床，因此，建立健全的监管措施，确保 AI 不被滥用和误用，成为一个重要议题。

策划 | 肖勇孙宇婷

记者 | 文巧郑雨航

编辑 | 兰素英

视觉 | 刘青彦

视频 | 张涵

排版 | 兰素英

（实习生杨蓝西、陈君瑶对本文亦有贡献。）

每日经济新闻

来源：今日头条

原文标题：Sora 到底有多炸裂，四款视频大模型 5 大场景测评！从 ChatGPT 到 Sora，OpenAI 为何能连续打造出“王炸级神器”– 今日头条