共计 1890 个字符,预计需要花费 5 分钟才能阅读完成。
Sora正式上线,视频生成模型竞争加剧
OpenAI的全新产品Sora终于与公众见面了!
然而,在Sora缺席的这段时间里,Runway、可灵、海螺和混元等多个新兴模型相继推出,各自发展出了独特的风格与功能。例如,Runway在多帧编辑方面表现出色,而可灵生成的情感表达则更加自然,海螺则专注于二次元风格的创作。
接下来,让我们深入探讨Sora与这些模型的实际表现吧!
第一轮:与Runway的对比
Runway是当前美国最受欢迎的视频生成工具之一,许多创作者都选择它进行视频制作。
现在,我们将对比三段Runway Gen3与Sora生成的视频效果。
场景一:罗马教堂风格视频
首先,让我们让两个模型各自生成一段罗马教堂风格的视频。从中可以看出,两者关注的重点有所不同,Sora生成了一幅会议场景,而Runway则呈现了一个节日庆典的画面。
场景二:生成行走人物的视频
接下来的生成内容是一位男士穿着圣诞服在冬季雪地中行走。两个模型的效果都相当出色,不过Sora的生成更具叙事感,配有背景变化和镜头切换设计。
场景三:利用靴子图片自动生成视频
Sora在此次展示中展现出了一些非同寻常的效果,静止的靴子竟然衍生出了另一双活动的靴子,Runway的生成效果大幅提升。
有网友评论道:看起来OpenAI利用UI设计来弥补模型的不足之处。
Round2:可灵的比较
在对比了两个国外模型后,我们不妨也将国产的模型拿出来进行一番比较。
首先登场的是备受喜爱的可灵模型,它在此次效果对比中吸引了许多网友的关注,并在过去几个月中也赢得了众多用户的喜爱。
场景一:Sora与可灵及Runway的对决
金毛狗狗在美术馆中欢快奔跑(Sora展示的官方场景之一)
场景二:Sora对决可灵
此处生成的视频是根据输入的图片而来,未使用任何提示词。
从视频效果来看,可灵所生成的画面似乎动作更为流畅,而Sora的画面切换则展现出一种独特的蒙太奇风格。
第三轮:海螺与混元的对比
在国产模型的战斗中,还有更多选手即将登场!
接下来,海螺模型和混元模型将进行对决。海螺自问世以来,始终在VBench榜单中保持领先,尽管混元模型开源时间不长,但也吸引了不少艺术家的创作。
现在,让我们共同见证他们的表现:
场景一:Sora、可灵与海螺,图像生成视频
这一题目非常考验模型的想象力。三者均基于一个人站在金字塔下的身影进行视频生成,Sora与可灵的主题均透出“末世”的氛围,而海螺则展现出一种“异世界”的战斗感。
场景二:Sora、Runway、可灵与海螺的对比
输入的内容为:“维京演员的情感表现,摄像机推进至演员皱眉的脸部”。
在Sora生成的视频中,拍摄角度的变化颇具趣味,而可灵和海螺在面部表情的处理上则显得更加自然。
场景三:Sora、可灵与混元的比拼
最后,让我们来观察一下这次测试,模型们被要求想象宇航员在月球上的活动。
从中我们可以发现,每个模型都有其独特的风格,Sora的视频镜头变化丰富,而可灵的场景则更加细腻,混元则具备更强的叙事性。
第四回合:视频一致性忠诚度的检测
网友Shaun Ralston决定用他自家的猫咪来测试Sora生成的视频中物体的一致性。
让我们首先来欣赏一下他的真实猫咪的照片:
接下来是Sora根据输入的图像生成的AI猫咪图像,观察后发现这些图像与真实猫咪几乎没有差别,尤其是视频中的动作表现相当自然。
还有一件事
在Sora正式版本发布后,用户们最为关注的,除了功能效果,便是定价的问题。
当前,Sora的使用权限仅限于Plus会员(每月20美元)和Pro会员(每月200美元)。具体而言,Plus会员每月可生成最多50个视频,720p分辨率限制为5秒,480p分辨率可生成10秒的视频。相比之下,Pro会员每月的生成量可达500个视频,支持1080p分辨率,视频最长可达20秒,并且可以同时生成5个视频,还提供无水印的下载功能。
不过,独立电影制片人el.cine在X平台上发布推文时指出,若想使用带有人物的图像来制作视频,此功能目前仅对Pro用户开放!
参考资料:
[1]https://x.com/emollick/status/1866227921893105975
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获取科技前沿动态