一句话打造60秒超真实视频,OpenAI新款Sora模型火爆上线,玩法揭秘!

共计 2968 个字符,预计需要花费 8 分钟才能阅读完成。

风口财经记者 刘建

自推出广受欢迎的聊天机器人ChatGPT以来,OpenAI在生成式人工智能领域不断创新。2月16日,这家公司发布了新的AI大模型Sora,该模型能通过简单的文本提示生成“真实感”与“富有创意”的60秒视频。Sora的“文生视频”功能能够呈现高度细致的场景、复杂的摄像机运动,以及充满活力的多角色表现,亦可将静态图像转化为动画。它不仅能理解用户的提示,还能识别这些元素在现实世界中的表现方式。

文本生成视频,效果出色

目前,OpenAI官网上关于Sora的信息较为有限。他们表示:“我们正在训练AI理解和模拟物理世界中的运动,旨在帮助人们解决与现实世界交互相关的挑战。”Sora能够根据文本描述生成最长达60秒的视频,并在生成的内容中展示多个镜头,以展现不同人物和视觉风格。

Sora具备一次性生成完整视频的能力,同时也可以对现有视频进行扩展,使其时长增加。OpenAI强调,通过让模型一次性生成多帧画面,他们解决了一个复杂的问题,即确保即便主体暂时离开视线,依然保持其不变。

在Sora的开发过程中,OpenAI基于之前对DALL-E和GPT模型的研究进行了改进。该模型运用了DALL·E 3的技术,能够更准确地反映用户的文字描述。除了视频生成,Sora还能够基于现有的静态图像制作动画,并精确地对图像内容进行动画处理。同时,它还可以提取现有视频并进行扩展,或填补缺失的帧。

目前,OpenAI官网已经展示了48个Sora生成的视频演示,色彩鲜艳,效果极为真实。

来自OpenAI Sora的AI生成视频图像:猛犸象在雪地中行走

以上截图的文字提示为:几头巨大的长毛猛犸象在雪地上缓缓走来,毛发随风轻扬,背景中是白雪覆盖的树木和巍峨的雪山,午后阳光洒落,伴随着飘渺的云朵和高悬的太阳,营造出温暖的氛围。低机位拍摄的画面捕捉到这些毛茸茸的巨型哺乳动物,摄影效果与景深都极为出色。

动态光影表现也有令人印象深刻的实例,比如一名女性在东京的霓虹灯下行走,以及阿马尔菲海岸教堂的鸟瞰图,还有一个卡通怪物在融化的蜡烛前好奇地跪下。

来自OpenAI Sora的AI生成视频图像:一位女性在东京路灯的霓虹灯下行走

以上截图的文字提示为:一位时尚女性在东京街道上漫步,街道两旁闪烁着温暖的霓虹灯和动感的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手握黑色钱包,佩戴着太阳镜,涂着红色唇膏,走路时显得自信而悠闲。湿润的街道反射出五彩缤纷的灯光,形成镜面效果,路人来来往往。

在一些场景中,Sora的表现几乎令人信服,比如在一段8秒的东京地铁车厢窗户视频中,除了列车窗外的反射,视频中人物的倒影也极其真实。

网友纷纷感叹“游戏结束”

Sora公布后,OpenAI的首席执行官山姆·奥特曼邀请社交媒体用户在线提交创意文字提示。

例如,一位来自新罕布什尔州的摄影师在X平台上给出的提示是:“由一位祖母级社交媒体博主进行的意式团子烹饪指导课,背景设定在乡村风格的托斯卡纳厨房,配有电影级灯光。”大约一小时后,奥特曼便回复了一段逼真的视频。

奥特曼的这一举动展示了Sora模型即时生成视频的强大能力。

东吴证券的观点认为,近年来视觉算法在泛化性、提示性、生成质量和稳定性等方面的突破,将推动技术拐点的到来以及热门应用的出现。3D资产生成和视频生成等领域受益于扩散算法的成熟,但在数据与算法方面的挑战多于图像生成。考虑到大型语言模型在各个AI领域的加速作用和涌现的优秀开源模型,2024年行业可能会迎来更大的发展。

自2023年底至2024年初,Pika、HeyGen等AI文生视频应用相继崭露头角,验证了多模态技术的不断进步。刚刚推出的Sora模型无疑加剧了这一领域的竞争。

网友们纷纷在社交平台上表示“游戏结束”,觉得自己的工作岌岌可危:

还有网友开始对整个行业进行“悼念”:

有网友表示,电影行业将面临彻底的颠覆。未来,只需撰写剧本即可直接生成电影,而不是“拍摄”电影,而是“生成”电影,导演、演员和摄影师都将面临失业。

YouTube博主Paddy Galloway也分享了对Sora的看法,他指出内容创作行业已发生永久性变化,毫不夸张。“我在YouTube界打拼了15年,但OpenAI的展示让我无言以对……动画师和3D艺术家们将面临挑战,素材网站将失去意义,任何人都能轻松获得令人难以置信的产品,内容背后的“创意”和故事将变得愈发重要。”

Sora仍需改进

Sora的视频一经推出,立刻震撼了整个行业。尽管这并非首个AI视频生成工具,其他公司也在开发类似的文本生成视频模型,例如谷歌正在测试名为Lumiere的模型,Meta的Emu模型,以及初创公司Runway的相关产品,但外媒指出,业内专家和分析师普遍认为,Sora在视频长度和质量方面超越了之前的所有水平。

一位硅谷AI公司的从业者表示,根据她的使用体验,Sora在演示中所展现的能力远超Pika和Runway。“Pika最多只能生成3到15秒的视频,而Sora可以直接生成长达一分钟的视频。从画面品质和时长来看,Sora绝对是一个重要的突破。”

根据美国有线电视新闻网(CNN)的报道,市场研究公司ABI Research的高级分析师海登表示,“Sora”有可能对数字娱乐市场造成重大影响,因为新的个性化内容将在各个渠道广泛传播。

Sora有时会生成不合常理的动作,例如在跑步机上倒着跑步。

然而,Sora目前仍存在诸多需改进之处。OpenAI提醒,当前的Sora模型在模拟复杂场景的物理现象时可能存在困难,也可能无法准确理解具体的因果关系。

Sora在提示空间的细节处理上存在混淆,且难以理解因果关系的具体实例。例如,在一段视频中,有人咬了一口饼干,但饼干上却没有留下咬痕。

Sora生成的视频:五只小狼在砾石路上嬉戏追逐,周围满是青草。

在Sora生成的视频中,动物或人可能会凭空出现,尤其是在包含众多实体的场景中。此外,Sora在时间推移中事件的精确描述上也存在困难,例如跟踪摄像机的特定轨迹。

Sora生成的视频:一把普通的塑料椅子在沙漠中被发现,人们小心翼翼地挖掘并掸去沙子。在这个例子中,Sora没有将椅子建模为一个刚性物体,导致不准确的物理交互。

OpenAI表示,计划与专家团队合作来测试这一新模型,重点关注错误信息、仇恨内容和偏见等方面。OpenAI还在开发一些工具,以帮助识别误导性信息,比如检测分类器可以判断视频何时由Sora生成。其文本分类器可检查并拒绝违反使用政策的文本提示,例如极端暴力、性内容和仇恨图像等。“我们还开发了一个强大的图像分类器,用于审查每个生成视频的帧,以确保在展示给用户之前符合我们的使用政策。”

OpenAI表示,Sora将首先提供给网络安全领域的教授,以评估该产品的潜在危害或风险。同时,一些视觉艺术家、设计师和电影制作人也将获得Sora的访问权限,以收集他们对该模型的使用反馈。

来源:今日头条
原文标题: 一句话生成 60 秒逼真视频,OpenAI 文生视频模型 Sora 刷屏,原来可以这样玩 – 今日头条
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-03发表,共计2968字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!