OpenAI视频生成新星Sora正式亮相，网页瞬间崩溃！

共计 2528 个字符，预计需要花费 7 分钟才能阅读完成。

界面新闻记者 | 李如嘉

界面新闻编辑 | 文姝琪

在OpenAI的“圣诞节12天发布计划”中，第三天迎来了视频生成大模型Sora的正式亮相。

早在今年2月16日，OpenAI首次向公众展示了Sora的潜力。其官方介绍指出，Sora能够生成长达60秒的视频，画面背景精致，镜头多样而复杂，角色也充满情感。OpenAI在官网上发布了多个视频演示，并在社交媒体平台X上频繁分享由Sora制作的内容。这些视频在短短五天内，就在OpenAI的TikTok账号上获得了超过51.3万的点赞，粉丝数也迅速攀升至10.6万。

尽管“多模态模型”并不是什么新鲜事物，文本转视频的技术也早已有之，但从OpenAI发布的视频中可以看出，Sora生成的视频在长度和准确性方面显著超越了市场上现有的产品，成为历史上最强的文本生成视频工具。

Sora的推出不仅吸引了大量粉丝，还提升了OpenAI的整体估值。然而，该公司在当时也明确表示，Sora在短期内不会向公众开放，理由是其技术仍存在一些瑕疵，特别是在空间处理方面。

时隔近十个月，Sora终于在此次系列发布中正式登场，备受期待。

OpenAI透露，自2月发布Sora以来，团队成功开发了其新版本Sora Turbo，性能有了显著提升。自即日起，该版本将作为独立产品面向ChatGPT Plus和Pro用户推出。

价格方面，ChatGPT Plus用户每月需支付20美元，最多可生成50个视频，分辨率为720p，时长5秒；而每月200美元的ChatGPT Pro用户则可生成最多500个视频，同时生成五个视频，时长为20秒，分辨率可达1080p，并可下载无水印版本。

Sora Turbo能够生成最长20秒的视频，最高可达1080p清晰度，用户可以选择宽屏、竖屏或方屏比例。在生成模式方面，除了基本的文本转视频模式外，还新增了文本加图像转视频模式，利用图像帮助Sora更好地理解用户的创作意图，并融入特定的图像元素；此外，还有文本加视频转视频模式，用户可以上传已有视频，结合文本描述进行修改或扩展。

另外，Sora Turbo还提供多种视频编辑工具，用户能够替换、删除或重新构思视频中的元素；找到并隔离最佳帧，然后将其向任一方向延伸以完成场景；使用Loop剪辑创建无缝重复的视频，以及一个名为Storyboard的选项，用户可以通过它详细描述希望视频在不同时间点的内容，从而更好地指导片段生成。

利用Sora生成的视频案例

当前，http://sora.com网站已正式上线，来自美国及其他市场的ChatGPT付费用户可以通过该网站开始体验Sora，但在欧洲大部分地区和英国的用户还需等待，而中国用户仍然受到限制。

由于需求火爆，Sora网站一度出现崩溃现象，OpenAI的CEO山姆·奥特曼（Sam Altman）表示：“由于需求超出了预期，我们不得不暂时关闭新用户的注册，并且生成内容的速度将会在一段时间内有所减缓。”

在技术发展方向上，业内普遍认为Sora的成功延续了OpenAI的Scaling law法则，即通过海量的数据、强大的算力和大参数模型，实现了质的飞跃。

OpenAI的研究科学家诺亚·布朗（Noam Brown）在Sora Turbo发布后指出，Sora是规模力量的最直观体现。山姆·奥特曼也提到：“可以将Sora视作视频版的GPT-1。”

市场普遍预期，Sora的推出将对视频制作行业带来深远的影响，无论是在电影制作、广告、游戏开发还是社交媒体领域，视频生成大模型都能够降低创作门槛，创造出新的机会。

自今年2月首次预告Sora以来，OpenAI便开始与各大电影制片厂、媒体高管和经纪公司展开深入对话，并允许一些艺术家、知名演员与导演试用该服务。

OpenAI还表示，Sora是一项基础性的AI技术，旨在理解和模拟现实，是开发能够与物理世界互动的模型的重要一步。

在Sora发布之后，国内多家互联网巨头和大模型公司迅速跟进这一视频生成领域，包括字节跳动、快手等。今年发布视频生成模型的公司还包括阿里云、Minimax、生数科技、智谱AI等。最近，腾讯也宣布其混元大模型上线了视频生成能力，正式加入了这场竞争。

尽管视频生成模型的热潮似乎蒸蒸日上，但该领域也面临着严峻的挑战。最近，百度CEO李彦宏曾表示“百度不做Sora”的演讲被媒体曝光，他在内部讲话中指出，Sora这种视频生成模型的投入周期极长，可能需要10年、20年才能获得业务收益，因此无论其多么火爆，百度都不会进入这一领域。

界面新闻从一位负责视频生成模型的技术专家处获悉，生成式AI技术正在显著降低视频创作的门槛，导致视频数据以大约20倍的速度增长，这对计算成本和效率提出了严峻挑战。以Sora模型为例，其训练和推理所需的算力需求分别达到了GPT-4的4.5倍和近400倍。

中国银河证券研究院的报告显示，Sora对算力的需求呈现出指数级增长，推算其训练单次算力需求可能达到2.6×10^24Flops，约为GPT-3175B的8.2倍。当前，Sora仍处于初级阶段，随着不断迭代优化，其训练数据集的规模将进一步扩大，未来的算力需求也将大幅增加。

上述技术专家还指出，在编解码层和框架层，视频生成模型也面临多重挑战。一方面是效率问题，另一方面是在计算需求持续增长的情况下，如何灵活应对日益复杂的需求。

这些因素对视频生成模型构成了巨大的挑战，但其商业化的前景依然不够明朗，进一步加大了训练和推理的成本压力。

视频生成模型还面临安全方面的挑战。OpenAI表示，为了防止滥用，使用Sora生成的视频将附带C2PA元数据，以表明这些视频是由AI生成的。此外，在用户上传图像和视频之前，OpenAI会要求用户同意使用协议，包括不得上传未成年人照片、色情或暴力内容、以及受版权保护的内容。一旦发现用户上传违禁内容，账号将被封禁。

来源：今日头条

原文标题：网页挤崩溃，OpenAI 视频生成大模型 Sora 终于正式登场 – 今日头条

原文链接：https://toutiao.com/group/7446604588058296882/

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完