共计 2269 个字符,预计需要花费 6 分钟才能阅读完成。
最近,人工智能领域的新兴领军者OpenAI发布了其文生视频模型Sora,瞬间吸引了各界对AI视频生成的关注。
Sora的推出突破了AI生成视频的时长限制,达到了令人惊讶的一分钟,同时,其演示视频展现了极高的真实感和质量,立即引发了广泛讨论。不过,OpenAI尚未透露Sora何时会向公众开放。首批使用权将优先提供给安全团队,以便评估潜在风险,而一些视觉艺术家、设计师和电影制作人也将有机会体验这一技术。
在Sora问世之前,市场上已有几个用户反馈不错的AI视频生成模型。那么,Sora为何能够引起如此强烈的反响呢?许多外媒对Runway、Pika Labs和Stable Video等三款热门文生视频模型进行了深入分析,比较了它们与Sora之间的技术差异。
视频时长对比:60秒与16秒
在Sora发布之前,Runway被广泛视为AI视频生成的首选,特别是自从去年11月推出第二代模型后,Runway更被称为“AI视频界的MidJourney”。其第二代模型Gen-2不仅解决了第一代在每帧连贯性上的不足,还在图像转化为视频的过程中表现出色。
Runway能够生成高质量的四秒短视频。
在Sora发布后,Runway的CEO克里斯托瓦尔·巴伦苏埃拉(Cristóbal Valenzuela)在社交平台上发出了“Game On(比赛开始了)”的感慨。
Sora最引人注目的技术突破之一在于其视频时长。Runway的生成视频最长可达16秒,已经是2023年AI生成视频的极限,而Sora则一举打破这一纪录,推出了60秒的视频。同时,Stable Video和Pika的最长视频时长分别为4秒和3秒。在这一点上,Sora无疑向竞争对手们发起了挑战。
Sora生成的60秒视频之一,展示了女子在东京街头行走的场景。
Sora能够实现如此视频时长的突破,主要得益于其独特的扩散Transformer架构,而Sora的创始人之一、现任OpenAI工程师William Peebles,刚在去年与他人合作发布了相关研究论文。
实际上,Sora与Pika和Runway使用的底层模型相似,均为Diffusion扩散模型。不同之处在于,Sora对实现逻辑进行了重新设计,采用了Transformer架构替代了U-Net架构。
然而,目前尚不清楚Sora是否提供足够的用户定制化功能,因此Runway在某种程度上仍可能是用户的替代选择。今年1月,Runway刚宣布推出多头运动笔刷(Multi Motion Brush)功能,让用户可以更灵活地控制AI生成视频中的多个元素。此外,Runway因其多种AI工具集成的视频制作解决方案而享有良好声誉。
镜头语言的差异:动态镜头与静态视角
值得注意的是,有用户在社交平台上提到,在OpenAI于2月15日推出Sora的同时,AI视频生成初创公司Stability AI也在官网和社交平台上发布了关于Stable Video Diffusion更新1.1版本的消息,但几分钟后这两则消息便被删除。
被Stability删除的文章截屏。
外界无法确定这是否是由于操作失误,或是Stability意识到两种AI视频生成技术之间的巨大质量差异,因而选择重新进行广告制作。Stable Video与前两者一样,仍然局限于单一、通常是静止视角的短视频片段。相较之下,Sora的宣传视频则展示了摄像机角度的变化、电影剪辑以及场景切换,即广义上所称的镜头语言。
此外,许多分析指出,Sora展现出了世界模型的特性。所谓世界模型是指对真实物理世界的建模,使机器能够像人类一样,全面而准确地理解世界。这一特性不仅使得AI生成更加流畅合理,还降低了模型训练的成本,提高了效率。
Sora生成的“赛博朋克场景中的机器生活故事”。
与Runway一样,Stability AI的CEO埃马德·莫斯塔克(Emad Mostaque)也在社交平台上表示,“OpenAI的创始人奥特曼真是个天才”,并称Sora可以视为AI视频生成领域的GPT3,未来将持续扩展、细化和优化。
潜在劣势:是否提供免费选项及开源问题
与其前辈相比,Sora面临两个关键问题,可能会影响用户的使用意愿:是否提供免费选项,以及是否会开源。
作为新兴竞争者,Pika Labs在去年11月推出了其生成式AI视频工具Pika 1.0,凭借精美的演示视频同样引起了热议。Pika于去年12月公开发布,质量上与Runway相近,并迅速建立了一个活跃的用户社区。
Pika生成视频的截图。
最为重要的是,Pika与其他竞争对手相比,提供了更为友好的免费使用选项。Runway仅提供125个不可续费的免费积分,而Pika每天则会发放30个积分,这一策略使其在短时间内吸引了大量用户。
Stability AI的Stable Video Diffusion是一款开源视频生成模型。类似于图像版的Stable Diffusion,该模型可根据用户需求进行个性化定制,并支持在本地设备上安装,而Sora则很可能不会提供这样的功能。
目前,Stable Video Diffusion也仅向部分用户开放试用,感兴趣的用户可以在Stability的官网上加入等待列表。