OpenAI推出全新大模型Sora，轻松将文本转换为60秒精彩视频！

共计 1727 个字符，预计需要花费 5 分钟才能阅读完成。

·Sora 能够依据文本指令生成 60 秒的视频，构建复杂场景，具备多个角色，特定运动类型，以及精准的主题与背景细节，并且在单个视频中展示多个镜头，完美保留角色与视觉风格。

·OpenAI 正致力于让 AI 理解和模拟物理运动，旨在训练模型以“帮助人们解决需要在现实中互动的问题”。然而，Sora 在提示空间的细节处理上会混淆左右，也未能准确把握因果关系的具体实例。

Sora 生成的视频展示：几只巨大的猛犸象在白雪皑皑的草地上穿行，长毛在寒风中轻轻摆动，远处是被白雪覆盖的树木和高山。

继推出备受欢迎的聊天机器人 ChatGPT 后，OpenAI 不断探索生成式人工智能的新应用。2023 年 2 月 16 日，OpenAI 推出了名为 Sora 的新型 AI 大模型，该模型能够通过简短的文本提示，快速生成“真实且富有创意”的 60 秒视频。

根据 OpenAI 的介绍，Sora 能够生成时长可达 60 秒的视频，同时确保视觉质量与用户的具体要求相一致。它可以创建包含多个角色、特定运动类型以及精确主题和背景细节的复杂场景。该模型在语言理解上表现出色，能够准确把握提示内容，生成逼真的角色。同时，Sora 可以在一个视频中展示多个镜头，确保角色与视觉风格的一致性。

Sora 生成的另一则视频：一只猫咪叫醒了沉睡的主人。

OpenAI 强调：“该模型不仅能够理解用户在提示中所要求的内容，还能洞悉这些元素在现实世界中的存在方式。”该公司正在教导人工智能去理解与模拟物理世界中的运动，目标是使模型能够“帮助人们解决需要现实世界交互的问题”。

Sora 不仅可以根据文本生成视频，还能够从现有的静态图像中生成视频，精准将图像内容进行动画化，亦可利用已有视频进行扩展或填补缺失的帧。

不过，Sora 有时会生成不合逻辑的动作，例如在跑步机上朝后跑步。

尽管如此，Sora 仍在不断完善中，存在一些显著的“缺陷”，尤其是在处理提示空间的细节时会出现混淆，也无法准确理解因果关系的实例。例如，在一个视频中，有人咬了一口饼干，但饼干上却没有留下咬痕。

Sora 生成的视频：五只小狼在砾石小路上嬉戏，四周草木繁盛。Sora 的一个问题在于在包含多个实体的场景中，动物或人会凭空出现。

在 Sora 生成的视频里，动物或人会无缘无故地出现，尤其是在复杂场景中。同时，Sora 在描述随时间推移发生的事件方面也存在困难，例如无法追踪特定的摄像机移动轨迹。

Sora 生成的视频：在沙漠中发现一把普通的塑料椅子，人们小心翼翼地进行挖掘并清除沙子。在这一例中，Sora 未能将椅子建模为一个刚性物体，导致物理交互不准确。

为确保模型的安全性，OpenAI 表示将与专业团队合作，对最新模型进行测试，着重关注错误信息、仇恨内容和潜在偏见等问题。同时，OpenAI 正在开发工具以帮助识别误导性信息，例如一个检测分类器可以判断视频是否由 Sora 生成，并且其文本分类器能够检查并拒绝违反使用政策的文本提示，比如极端暴力、性内容、仇恨图像和名人肖像等。“我们还开发了一个强大的图像分类器，用于审核每个生成视频的帧，以确保在呈现给用户之前符合我们的使用政策。”

OpenAI 表示，Sora 将首先提供给网络安全领域的教授，以便评估产品可能带来的危害或风险。一些视觉艺术家、设计师和电影制作人也将有机会使用 Sora，从而收集他们在创意过程中的反馈。

Sora 生成的视频：在“赛博朋克”环境中，讲述一个机器人的生活故事。

市场研究公司 ABI Research 的高级分析师里斯·海登（Reece Hayden）指出，尽管多模态大模型并不算新颖，且文生视频的模型早已有之，但 OpenAI 所声称的 Sora 在生成视频的时长和准确性方面让它独树一帜。海登认为，这类人工智能模型可能会对数字娱乐行业带来深远影响，新的个性化内容将会在各个渠道中传播，“一个显而易见的应用场景是在电视领域，创作短小的场景来推动叙事发展。”

来源：今日头条

原文标题：OpenAI 推新款大模型 Sora，可根据文本生成 60 秒视频 – 今日头条

原文链接：https://toutiao.com/group/7336049347979018803/

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完