共计 3509 个字符,预计需要花费 9 分钟才能阅读完成。
“后宫的甄嬛也在享受汉堡”“等我年老时要靠小猫养老”……最近,利用AI大型模型制作的这些视频在网络上引起了热潮。通过AI技术,有人将经典电视剧《甄嬛传》重新演绎成了“舌尖上的中国”,也有人持续推出可爱的AI宠物视频,迅速成为社交媒体上的宠物博主。
这一切背后,正是“中国版Sora”的迅速崛起。今年年初,Sora发布了一段60秒的视频,引起了广泛关注,但其后却未能顺利上线,成为了人们所期待的“期货”。在此期间,多家中国公司抢先布局,推出了各自的视频生成模型产品,其中包括字节、快手、阿里云、昆仑万维、美图等互联网企业,以及Minimax、智谱、爱诗科技和生数科技等初创公司也在迅速跟进。
中国版Sora的竞争情况如何呢?最近,南都记者对8款热门视频生成模型进行了评测,发现文生视频的生成效果差异较大,而图生视频领域则存在很大的改进空间。
测评8款视频生成应用(文生视频)↓↓
市场参与者
快手、字节、Minimax争夺Sora的“期货”
在今年春节,Sora的发布如同一颗炸弹,瞬间引爆了“文生文”“文生图”的大模型市场,开启了“视频的ChatGPT时代”。然而,Sora在惊艳现世后却迟迟未能上线,外界纷纷称之为“期货”。
就在不久前的10月5日,Meta抢先于OpenAI推出了与Sora竞争的Meta Movie Gen。该应用可以创建不同宽高比的高清长视频,支持1080p,不仅可以通过文本生成视频,还能对已有视频进行文本编辑。此外,它还能生成背景音乐和音效,根据文本指令修改视频,甚至可以根据用户上传的图像生成个性化视频,声称其真实度超越Sora。
扎克伯格的Meta行动并不算迅速,中国企业早已在此领域积极布局。
今年3月底,字节跳动旗下剪映团队推出的AI创作平台“即梦AI”开放内测,8月6日,该应用的移动版本正式上线苹果应用商店,目前具备文生图、文生视频和图生视频等多种功能。
6月13日,美图基于美图奇想大模型推出了专注于短片创作的平台MOKI。创作者在此平台上只需进行前期设置、内容生成和后期制作,便可完成动画短片、网络剧本、故事绘本和MV的制作,南都记者测试后发现,制作的视频时长最长可达到2分钟。
6月21日,快手的可灵推出了图生视频功能。7月24日,可灵宣布基础模型再次升级,画面质量和运动表现均有所改善。
9月19日,阿里云通义万相发布了全新的视频生成模型,推出了文生视频和图生视频功能。在文生视频中,用户只需输入任意文字提示词,即可免费生成一段高清视频。
在大模型初创企业方面,Minimax、智谱、爱诗科技与生数科技都在视频大模型领域有所布局。
早在今年1月,爱诗科技就发布了AI视频生成产品PixVerse,可以免费生成4K高清视频。到7月24日,爱诗科技发布了PixVerse V2,能够一次生成多个视频片段,支持单片段8秒和多片段40秒的视频生成。
值得一提的是,爱诗科技创始人王长虎曾在2017年加入字节跳动担任AI实验室总监,参与了抖音与TikTok等国民级视频产品的建设与发展。他曾公开表示,中国公司在短视频领域创造了10亿级别的国民级产品抖音、TikTok,视频应用在中国有着良好的用户基础和生长环境,AI生成视频领域也有望涌现出巨头企业。
今年4月,同为初创企业的生数科技发布了视频生成模型Vidu,支持最长16秒、最高1080P分辨率的视频生成。两个月后,视频时长升级至最长32秒,但生数科技7月底上线的Vidu官网仅提供4秒和8秒两种时长选择。
7月26日,智谱AI宣布AI生成视频模型清影(Ying)正式上线,南都记者注意到,使用清影生成6秒的视频只需30秒,且该功能支持文生视频、图生视频和视频生成视频。
9月2日,MiniMax发布了视频模型abab-video-1,并透露该模型具有高压缩率、良好的文本响应能力和多样的风格,支持原生高分辨率和高帧率视频,能够与电影质量相媲美。
实测结果
通义猫咪只看不做菜,生数科技猫爪变人手
关于视频生成时长的问题,生数科技CEO唐家渝曾表示,生成时长的能力与模型对物理世界及语义输入的理解密切相关。南都记者在对上述8家公司进行评测时发现,各家推出的视频大模型中,最长可生成2分钟,最短仅3秒。
八款视频生成大模型产品比较测评
制表:南都记者 林文琪。(注:根据实测情况统计)
南都记者在测评中从基本原则出发,C端用户使用AI大模型制作视频的主要诉求在于提升效率,同时也带有对新科技的期待。从这个角度来看,本次评测的首要目标是判断AI大模型能否满足用户的基本需求,这可以通过用户输入指令后生成的视频逐一评估其效果,同时比较输出视频的时长。其次,鉴于用户对新科技的期待,南都记者在测评过程中还观察某些视频大模型是否能够产生意想不到的附加效果,例如在运镜、视频风格上是否能够在满足基本需求的情况下有所突破。
最近,大量利用AI制作的宠物视频在社交媒体上广泛传播,南都记者以“一只白猫和一只黑猫在厨房,左边的白猫在包饺子,右边的黑猫在切韭菜”为提示词,对上述8款产品进行了测试,结果发现各具差异。
其中,阿里通义和抖音即梦推出的生成功能中,通义生成的两只猫并未实现包饺子和切韭菜的动作,而是盯着刀对韭菜和饺子随意切了起来;而抖音即梦生成的则是两只猫试图伸出爪子“参与”包饺子和切韭菜,但呈现效果倒像是在谨慎地嗅闻,颇具“偷感”。
左图:阿里通义 右图:抖音即梦
南都记者将同样的指令输入到爱诗科技的视频大模型PixVerse中,结果黑猫和白猫没有理解“做菜的需求”,直接“上手”吃饺子皮、啃韭菜,出现了“翻车”。
爱诗科技视频大模型PixVerse
在同样的指令下,快手的大模型可灵在文生视频模式中理解了让猫“拟人化”做菜的要求,猫用爪子包饺子,但黑猫却不切韭菜,而是直接拿起刀切饺子。
猫咪厨师:AI视频生成技术的趣味尝试
在快手可灵的测试中,智谱清影的文生视频模型成功捕捉到了让猫咪拟人化做菜的创意。在生成的短片中,黑猫与白猫分工明确,一个负责包饺子,另一个则在切韭菜。南都记者在体验过程中,还选择了“电影感、镜头推进、紧张刺激”等多种风格,最终生成的视频几乎都符合这些要求。
智谱清影的技术同样出色。生数科技的Vidu视频模型在生成的画面中,展示了两只猫在现代厨房里忙碌的情景。白猫熟练地包饺子,而黑猫虽然做出了切韭菜的动作,画面却没有刀具,黑猫只能通过“挠爪子”的方式来表现。
与此同时,生数科技的Vidu在生成过程中也出现了一些小插曲,比如在一个镜头中,韭菜被放入包好的饺子中,但手却意外地变成了人手,令画面显得有些滑稽。
Minimax的海螺AI对提示词中的猫咪拟人化指令进行了理解,生成的场景中,白猫在包饺子时忍不住想要凑近闻饺子,而黑猫则真的用菜刀切起了韭菜,表现得非常自然。
在美图MOKI的视频平台上,用户输入相同的提示词后,模型首先将其转换为详细的脚本,并生成两个角色,随后逐帧制作视频,用户还可以自由调整画面和位置,最终制作出自己满意的短片。
在进行图生视频的测试时,南都记者尝试输入一张包含两只猫的照片,以及提示词:“两只猫在厨房,左边的猫在包饺子,右边的猫在切韭菜,两只猫互相瞪了一眼,镜头聚焦在包饺子的猫手上,它包得特别快。”然而,在字节即梦和快手可灵的图生视频功能中,这两只猫在生成的视频中仅能表现出晃动与偶尔的爪子动作,并未能实现包饺子和切韭菜的情境。
阿里云通义的视频大模型虽然成功展示了切韭菜的场景,但韭菜与刀具却在画面中凭空出现。此外,智谱清影的模型也展现了擀饺子皮和包饺子的动作,但从输入猫咪图片到生成擀饺子皮短片的过程中,画面衔接显得生硬,猫爪子突然变成了人的手,令人忍俊不禁。
标题:猫咪的趣味瞬间:AI视频生成技术的挑战与前景
进一步探索爱诗科技的pixverse,我们可以尝试输入一张猫咪的图片以及相关提示。这时,虽然画面中的猫咪开始了有趣的活动,但并没有如预期般制作饺子,而是欢快地玩耍并享用着饺子。
不难发现,与文生视频功能相比,现有的大多数视频生成模型在图像生成与视频转换的能力上仍然面临显著的改进空间。大多数模型只能简单地让图中的猫咪动起来,能够理解提示并在视频中有效地添加新物品或转场效果的技术尚属少数,这也使得相关项目更容易出现失败。
采写/视频:南都记者 林文琪