共计 1727 个字符,预计需要花费 5 分钟才能阅读完成。
·Sora 能够依据文本指令生成 60 秒的视频,构建复杂场景,具备多个角色,特定运动类型,以及精准的主题与背景细节,并且在单个视频中展示多个镜头,完美保留角色与视觉风格。
·OpenAI 正致力于让 AI 理解和模拟物理运动,旨在训练模型以“帮助人们解决需要在现实中互动的问题”。然而,Sora 在提示空间的细节处理上会混淆左右,也未能准确把握因果关系的具体实例。

Sora 生成的视频展示:几只巨大的猛犸象在白雪皑皑的草地上穿行,长毛在寒风中轻轻摆动,远处是被白雪覆盖的树木和高山。
继推出备受欢迎的聊天机器人 ChatGPT 后,OpenAI 不断探索生成式人工智能的新应用。2023 年 2 月 16 日,OpenAI 推出了名为 Sora 的新型 AI 大模型,该模型能够通过简短的文本提示,快速生成“真实且富有创意”的 60 秒视频。
根据 OpenAI 的介绍,Sora 能够生成时长可达 60 秒的视频,同时确保视觉质量与用户的具体要求相一致。它可以创建包含多个角色、特定运动类型以及精确主题和背景细节的复杂场景。该模型在语言理解上表现出色,能够准确把握提示内容,生成逼真的角色。同时,Sora 可以在一个视频中展示多个镜头,确保角色与视觉风格的一致性。

Sora 生成的另一则视频:一只猫咪叫醒了沉睡的主人。
OpenAI 强调:“该模型不仅能够理解用户在提示中所要求的内容,还能洞悉这些元素在现实世界中的存在方式。”该公司正在教导人工智能去理解与模拟物理世界中的运动,目标是使模型能够“帮助人们解决需要现实世界交互的问题”。
Sora 不仅可以根据文本生成视频,还能够从现有的静态图像中生成视频,精准将图像内容进行动画化,亦可利用已有视频进行扩展或填补缺失的帧。

不过,Sora 有时会生成不合逻辑的动作,例如在跑步机上朝后跑步。
尽管如此,Sora 仍在不断完善中,存在一些显著的“缺陷”,尤其是在处理提示空间的细节时会出现混淆,也无法准确理解因果关系的实例。例如,在一个视频中,有人咬了一口饼干,但饼干上却没有留下咬痕。

Sora 生成的视频:五只小狼在砾石小路上嬉戏,四周草木繁盛。Sora 的一个问题在于在包含多个实体的场景中,动物或人会凭空出现。
在 Sora 生成的视频里,动物或人会无缘无故地出现,尤其是在复杂场景中。同时,Sora 在描述随时间推移发生的事件方面也存在困难,例如无法追踪特定的摄像机移动轨迹。

Sora 生成的视频:在沙漠中发现一把普通的塑料椅子,人们小心翼翼地进行挖掘并清除沙子。在这一例中,Sora 未能将椅子建模为一个刚性物体,导致物理交互不准确。
为确保模型的安全性,OpenAI 表示将与专业团队合作,对最新模型进行测试,着重关注错误信息、仇恨内容和潜在偏见等问题。同时,OpenAI 正在开发工具以帮助识别误导性信息,例如一个检测分类器可以判断视频是否由 Sora 生成,并且其文本分类器能够检查并拒绝违反使用政策的文本提示,比如极端暴力、性内容、仇恨图像和名人肖像等。“我们还开发了一个强大的图像分类器,用于审核每个生成视频的帧,以确保在呈现给用户之前符合我们的使用政策。”
OpenAI 表示,Sora 将首先提供给网络安全领域的教授,以便评估产品可能带来的危害或风险。一些视觉艺术家、设计师和电影制作人也将有机会使用 Sora,从而收集他们在创意过程中的反馈。

Sora 生成的视频:在“赛博朋克”环境中,讲述一个机器人的生活故事。
市场研究公司 ABI Research 的高级分析师里斯·海登(Reece Hayden)指出,尽管多模态大模型并不算新颖,且文生视频的模型早已有之,但 OpenAI 所声称的 Sora 在生成视频的时长和准确性方面让它独树一帜。海登认为,这类人工智能模型可能会对数字娱乐行业带来深远影响,新的个性化内容将会在各个渠道中传播,“一个显而易见的应用场景是在电视领域,创作短小的场景来推动叙事发展。”
