一句话打造60秒超真实视频，OpenAI新款Sora模型火爆上线，玩法揭秘！

共计 2968 个字符，预计需要花费 8 分钟才能阅读完成。

风口财经记者刘建

自推出广受欢迎的聊天机器人ChatGPT以来，OpenAI在生成式人工智能领域不断创新。2月16日，这家公司发布了新的AI大模型Sora，该模型能通过简单的文本提示生成“真实感”与“富有创意”的60秒视频。Sora的“文生视频”功能能够呈现高度细致的场景、复杂的摄像机运动，以及充满活力的多角色表现，亦可将静态图像转化为动画。它不仅能理解用户的提示，还能识别这些元素在现实世界中的表现方式。

目前，OpenAI官网上关于Sora的信息较为有限。他们表示：“我们正在训练AI理解和模拟物理世界中的运动，旨在帮助人们解决与现实世界交互相关的挑战。”Sora能够根据文本描述生成最长达60秒的视频，并在生成的内容中展示多个镜头，以展现不同人物和视觉风格。

Sora具备一次性生成完整视频的能力，同时也可以对现有视频进行扩展，使其时长增加。OpenAI强调，通过让模型一次性生成多帧画面，他们解决了一个复杂的问题，即确保即便主体暂时离开视线，依然保持其不变。

在Sora的开发过程中，OpenAI基于之前对DALL-E和GPT模型的研究进行了改进。该模型运用了DALL·E 3的技术，能够更准确地反映用户的文字描述。除了视频生成，Sora还能够基于现有的静态图像制作动画，并精确地对图像内容进行动画处理。同时，它还可以提取现有视频并进行扩展，或填补缺失的帧。

目前，OpenAI官网已经展示了48个Sora生成的视频演示，色彩鲜艳，效果极为真实。

来自OpenAI Sora的AI生成视频图像：猛犸象在雪地中行走

以上截图的文字提示为：几头巨大的长毛猛犸象在雪地上缓缓走来，毛发随风轻扬，背景中是白雪覆盖的树木和巍峨的雪山，午后阳光洒落，伴随着飘渺的云朵和高悬的太阳，营造出温暖的氛围。低机位拍摄的画面捕捉到这些毛茸茸的巨型哺乳动物，摄影效果与景深都极为出色。

动态光影表现也有令人印象深刻的实例，比如一名女性在东京的霓虹灯下行走，以及阿马尔菲海岸教堂的鸟瞰图，还有一个卡通怪物在融化的蜡烛前好奇地跪下。

来自OpenAI Sora的AI生成视频图像：一位女性在东京路灯的霓虹灯下行走

以上截图的文字提示为：一位时尚女性在东京街道上漫步，街道两旁闪烁着温暖的霓虹灯和动感的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，手握黑色钱包，佩戴着太阳镜，涂着红色唇膏，走路时显得自信而悠闲。湿润的街道反射出五彩缤纷的灯光，形成镜面效果，路人来来往往。

在一些场景中，Sora的表现几乎令人信服，比如在一段8秒的东京地铁车厢窗户视频中，除了列车窗外的反射，视频中人物的倒影也极其真实。

Sora公布后，OpenAI的首席执行官山姆·奥特曼邀请社交媒体用户在线提交创意文字提示。

例如，一位来自新罕布什尔州的摄影师在X平台上给出的提示是：“由一位祖母级社交媒体博主进行的意式团子烹饪指导课，背景设定在乡村风格的托斯卡纳厨房，配有电影级灯光。”大约一小时后，奥特曼便回复了一段逼真的视频。

奥特曼的这一举动展示了Sora模型即时生成视频的强大能力。

东吴证券的观点认为，近年来视觉算法在泛化性、提示性、生成质量和稳定性等方面的突破，将推动技术拐点的到来以及热门应用的出现。3D资产生成和视频生成等领域受益于扩散算法的成熟，但在数据与算法方面的挑战多于图像生成。考虑到大型语言模型在各个AI领域的加速作用和涌现的优秀开源模型，2024年行业可能会迎来更大的发展。

自2023年底至2024年初，Pika、HeyGen等AI文生视频应用相继崭露头角，验证了多模态技术的不断进步。刚刚推出的Sora模型无疑加剧了这一领域的竞争。

网友们纷纷在社交平台上表示“游戏结束”，觉得自己的工作岌岌可危：

还有网友开始对整个行业进行“悼念”：

有网友表示，电影行业将面临彻底的颠覆。未来，只需撰写剧本即可直接生成电影，而不是“拍摄”电影，而是“生成”电影，导演、演员和摄影师都将面临失业。

YouTube博主Paddy Galloway也分享了对Sora的看法，他指出内容创作行业已发生永久性变化，毫不夸张。“我在YouTube界打拼了15年，但OpenAI的展示让我无言以对……动画师和3D艺术家们将面临挑战，素材网站将失去意义，任何人都能轻松获得令人难以置信的产品，内容背后的“创意”和故事将变得愈发重要。”

Sora的视频一经推出，立刻震撼了整个行业。尽管这并非首个AI视频生成工具，其他公司也在开发类似的文本生成视频模型，例如谷歌正在测试名为Lumiere的模型，Meta的Emu模型，以及初创公司Runway的相关产品，但外媒指出，业内专家和分析师普遍认为，Sora在视频长度和质量方面超越了之前的所有水平。

一位硅谷AI公司的从业者表示，根据她的使用体验，Sora在演示中所展现的能力远超Pika和Runway。“Pika最多只能生成3到15秒的视频，而Sora可以直接生成长达一分钟的视频。从画面品质和时长来看，Sora绝对是一个重要的突破。”

根据美国有线电视新闻网(CNN)的报道，市场研究公司ABI Research的高级分析师海登表示，“Sora”有可能对数字娱乐市场造成重大影响，因为新的个性化内容将在各个渠道广泛传播。

Sora有时会生成不合常理的动作，例如在跑步机上倒着跑步。

然而，Sora目前仍存在诸多需改进之处。OpenAI提醒，当前的Sora模型在模拟复杂场景的物理现象时可能存在困难，也可能无法准确理解具体的因果关系。

Sora在提示空间的细节处理上存在混淆，且难以理解因果关系的具体实例。例如，在一段视频中，有人咬了一口饼干，但饼干上却没有留下咬痕。

Sora生成的视频：五只小狼在砾石路上嬉戏追逐，周围满是青草。

在Sora生成的视频中，动物或人可能会凭空出现，尤其是在包含众多实体的场景中。此外，Sora在时间推移中事件的精确描述上也存在困难，例如跟踪摄像机的特定轨迹。

Sora生成的视频：一把普通的塑料椅子在沙漠中被发现，人们小心翼翼地挖掘并掸去沙子。在这个例子中，Sora没有将椅子建模为一个刚性物体，导致不准确的物理交互。

OpenAI表示，计划与专家团队合作来测试这一新模型，重点关注错误信息、仇恨内容和偏见等方面。OpenAI还在开发一些工具，以帮助识别误导性信息，比如检测分类器可以判断视频何时由Sora生成。其文本分类器可检查并拒绝违反使用政策的文本提示，例如极端暴力、性内容和仇恨图像等。“我们还开发了一个强大的图像分类器，用于审查每个生成视频的帧，以确保在展示给用户之前符合我们的使用政策。”

OpenAI表示，Sora将首先提供给网络安全领域的教授，以评估该产品的潜在危害或风险。同时，一些视觉艺术家、设计师和电影制作人也将获得Sora的访问权限，以收集他们对该模型的使用反馈。

来源：今日头条

原文标题：一句话生成 60 秒逼真视频，OpenAI 文生视频模型 Sora 刷屏，原来可以这样玩 – 今日头条

原文链接：https://toutiao.com/group/7336136920554390053/

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完