共计 2528 个字符,预计需要花费 7 分钟才能阅读完成。
界面新闻记者 | 李如嘉
界面新闻编辑 | 文姝琪
在OpenAI的“圣诞节12天发布计划”中,第三天迎来了视频生成大模型Sora的正式亮相。
早在今年2月16日,OpenAI首次向公众展示了Sora的潜力。其官方介绍指出,Sora能够生成长达60秒的视频,画面背景精致,镜头多样而复杂,角色也充满情感。OpenAI在官网上发布了多个视频演示,并在社交媒体平台X上频繁分享由Sora制作的内容。这些视频在短短五天内,就在OpenAI的TikTok账号上获得了超过51.3万的点赞,粉丝数也迅速攀升至10.6万。
尽管“多模态模型”并不是什么新鲜事物,文本转视频的技术也早已有之,但从OpenAI发布的视频中可以看出,Sora生成的视频在长度和准确性方面显著超越了市场上现有的产品,成为历史上最强的文本生成视频工具。
Sora的推出不仅吸引了大量粉丝,还提升了OpenAI的整体估值。然而,该公司在当时也明确表示,Sora在短期内不会向公众开放,理由是其技术仍存在一些瑕疵,特别是在空间处理方面。
时隔近十个月,Sora终于在此次系列发布中正式登场,备受期待。
OpenAI透露,自2月发布Sora以来,团队成功开发了其新版本Sora Turbo,性能有了显著提升。自即日起,该版本将作为独立产品面向ChatGPT Plus和Pro用户推出。
价格方面,ChatGPT Plus用户每月需支付20美元,最多可生成50个视频,分辨率为720p,时长5秒;而每月200美元的ChatGPT Pro用户则可生成最多500个视频,同时生成五个视频,时长为20秒,分辨率可达1080p,并可下载无水印版本。
Sora Turbo能够生成最长20秒的视频,最高可达1080p清晰度,用户可以选择宽屏、竖屏或方屏比例。在生成模式方面,除了基本的文本转视频模式外,还新增了文本加图像转视频模式,利用图像帮助Sora更好地理解用户的创作意图,并融入特定的图像元素;此外,还有文本加视频转视频模式,用户可以上传已有视频,结合文本描述进行修改或扩展。
另外,Sora Turbo还提供多种视频编辑工具,用户能够替换、删除或重新构思视频中的元素;找到并隔离最佳帧,然后将其向任一方向延伸以完成场景;使用Loop剪辑创建无缝重复的视频,以及一个名为Storyboard的选项,用户可以通过它详细描述希望视频在不同时间点的内容,从而更好地指导片段生成。
当前,http://sora.com网站已正式上线,来自美国及其他市场的ChatGPT付费用户可以通过该网站开始体验Sora,但在欧洲大部分地区和英国的用户还需等待,而中国用户仍然受到限制。
由于需求火爆,Sora网站一度出现崩溃现象,OpenAI的CEO山姆·奥特曼(Sam Altman)表示:“由于需求超出了预期,我们不得不暂时关闭新用户的注册,并且生成内容的速度将会在一段时间内有所减缓。”
在技术发展方向上,业内普遍认为Sora的成功延续了OpenAI的Scaling law法则,即通过海量的数据、强大的算力和大参数模型,实现了质的飞跃。
OpenAI的研究科学家诺亚·布朗(Noam Brown)在Sora Turbo发布后指出,Sora是规模力量的最直观体现。山姆·奥特曼也提到:“可以将Sora视作视频版的GPT-1。”
市场普遍预期,Sora的推出将对视频制作行业带来深远的影响,无论是在电影制作、广告、游戏开发还是社交媒体领域,视频生成大模型都能够降低创作门槛,创造出新的机会。
自今年2月首次预告Sora以来,OpenAI便开始与各大电影制片厂、媒体高管和经纪公司展开深入对话,并允许一些艺术家、知名演员与导演试用该服务。
OpenAI还表示,Sora是一项基础性的AI技术,旨在理解和模拟现实,是开发能够与物理世界互动的模型的重要一步。
在Sora发布之后,国内多家互联网巨头和大模型公司迅速跟进这一视频生成领域,包括字节跳动、快手等。今年发布视频生成模型的公司还包括阿里云、Minimax、生数科技、智谱AI等。最近,腾讯也宣布其混元大模型上线了视频生成能力,正式加入了这场竞争。
尽管视频生成模型的热潮似乎蒸蒸日上,但该领域也面临着严峻的挑战。最近,百度CEO李彦宏曾表示“百度不做Sora”的演讲被媒体曝光,他在内部讲话中指出,Sora这种视频生成模型的投入周期极长,可能需要10年、20年才能获得业务收益,因此无论其多么火爆,百度都不会进入这一领域。
界面新闻从一位负责视频生成模型的技术专家处获悉,生成式AI技术正在显著降低视频创作的门槛,导致视频数据以大约20倍的速度增长,这对计算成本和效率提出了严峻挑战。以Sora模型为例,其训练和推理所需的算力需求分别达到了GPT-4的4.5倍和近400倍。
中国银河证券研究院的报告显示,Sora对算力的需求呈现出指数级增长,推算其训练单次算力需求可能达到2.6×10^24Flops,约为GPT-3175B的8.2倍。当前,Sora仍处于初级阶段,随着不断迭代优化,其训练数据集的规模将进一步扩大,未来的算力需求也将大幅增加。
上述技术专家还指出,在编解码层和框架层,视频生成模型也面临多重挑战。一方面是效率问题,另一方面是在计算需求持续增长的情况下,如何灵活应对日益复杂的需求。
这些因素对视频生成模型构成了巨大的挑战,但其商业化的前景依然不够明朗,进一步加大了训练和推理的成本压力。
视频生成模型还面临安全方面的挑战。OpenAI表示,为了防止滥用,使用Sora生成的视频将附带C2PA元数据,以表明这些视频是由AI生成的。此外,在用户上传图像和视频之前,OpenAI会要求用户同意使用协议,包括不得上传未成年人照片、色情或暴力内容、以及受版权保护的内容。一旦发现用户上传违禁内容,账号将被封禁。