告别Sora!探索这些强劲的国产AI视频大模型,实力不容小觑!

共计 4004 个字符,预计需要花费 11 分钟才能阅读完成。

Sora 已经出现,但并未完全到来。在为期 12 天的发布活动中,OpenAI 在第三天正式向公众推出了 AI 视频大模型 Sora Turbo,能够生成最长 20 秒的视频,这个时长仅为 Sora 初次发布时宣传的三分之一。更令人惊讶的是,并非所有用户都能立刻体验 Sora Turbo,这款应用仍在小范围内进行测试。

在 Sora 之前,已有外国公司开发了视频大模型,但真正使视频大模型行业进入快速发展的时期则是 Sora 在今年 2 月的首次亮相。然而,Sora 似乎在快速发展的浪潮中逐渐掉队。

如果仅关注国内市场,我们会发现至少有二十款 AI 视频大模型问世,互联网巨头如腾讯、阿里巴巴、字节跳动等公司,各自都推出了自己的 AI 视频大模型。从行业的角度来看,AI 视频大模型赋予了大模型理解和重构现实的能力,而从用户的视角出发,AI 视频大模型则为我们提供了无限的创意空间。

与广泛应用的大语言模型相比,视频大模型的应用场景显得更加专业,因此目前大部分生成视频的服务需要付费。免费用户只能依靠系统提供的积分或每日赠送的次数来生成视频,且可能无法使用一些高级功能。因此,对于不关注 AI 大模型的朋友们来说,国内具体有哪些视频大模型可能并不太清楚。

接下来,小雷将为大家介绍六款目前在国内比较知名的 AI 大模型,并分析它们的功能特性,或许未来它们将成为你实现创意和灵感的利器。

国产视频大模型争先恐后,Sora 成为追随者?

在国内,众多视频大模型的功能与体验各有差异,经过几个月的技术提升,大多数模型可以识别自然语言,而不再只是依赖特定的关键词来生成内容。这对于视频大模型来说是一个小进步,但对整个互联网行业而言却是一次重大突破。理解自然语言使得将我们的想法或小说中的情节转化为视频成为可能。

至于如何选择视频大模型,别着急,跟随小雷一起看看互联网巨头们的视频大模型表现如何,或许答案就会浮现出来。

1、可灵:行业先锋,卓越体验。

训练视频大模型需要大量的视频资料,视频平台因而具备先天优势。自 Sora 发布后仅四个月,快手科技旗下的 AI 团队便推出了视频大模型可灵,并已发展至 1.5 版本。根据小雷的体验,可灵在国内众多视频大模型中,使用体验位列前三。

可灵支持文本生成视频和图像生成视频(也可添加文字描述)两种模式,并允许调整创意的想象力与相关性。可灵 1.5 版本的免费用户可以使用文本生成视频功能,最多生成 5 秒的高品质视频(1.5 版本不支持生成标准品质视频,而 1.0 版本可生成 10 秒标准品质视频),而图像生成视频功能则允许生成最高 10 秒的标准品质或 5 秒的高品质视频,还支持镜头运动调节。

小雷以“宁静的海滩,满月高悬在天空,微风轻拂着海边的椰子树,发出沙沙声,一只小猫懒洋洋地躺在沙滩上,舔舐着前腿上的毛发”为描述生成了一段视频。具体效果如下,无论是猫咪舔舐毛发的动作还是椰子树随风摇曳的细节,都展现得非常出色,唯一的不足在于生成的视频是在白天,而非小雷所描述的夜晚场景。

(图源:可灵生成)

作为国内较早的 AI 视频大模型之一,可灵的表现十分优异,提供了丰富的功能选择。期待可灵能够尽快推出更长时间的视频生成选项,以满足微短剧的需求,帮助微短剧创作者降低制作成本,从而提升可灵的实用价值。

2、即梦:语言解析能力强,灵动感稍显不足。

在快手推出可灵后,抖音也不甘示弱,推出了视频大模型即梦。

即梦除了支持文本生成视频和图像生成视频外,还引入了口型同步功能,用户可以导入图片或视频,再上传文本或录音,即梦便能对视频进行调整。尽管即梦发布稍晚,但其更新迭代速度极快,目前官网已推出视频 1.2、视频 2.0 和视频 2.0 Pro 三个版本供用户使用。

需要注意的是,该大模型注册后即送 60 积分,视频 1.2 大模型生成 4 /6/ 8 秒视频分别需要 4 /6/ 8 积分,视频 2.0 生成 5 秒视频需 5 积分,而视频 2.0 Pro 则需 20 积分才能生成视频。

小雷使用即梦视频 2.0 Pro 模型,以相同的描述语生成了一段视频,质量同样出色,基本展现了小雷所描述的场景。然而,这段视频也并非完美,例如猫咪的动作显得单调而僵硬,缺乏灵动感,树叶也没有随风摆动等情况。

(图源:即梦生成)

在小雷看来,即梦对自然语言的解析能力似乎比可灵更强,尽管描述中的元素基本都具备,但生成的视频整体质量略逊于可灵。

3、混元:功能待提升,成长空间广阔。

谈及快手和抖音这两大短视频巨头,自然不能忽视腾讯公司。腾讯近期推出了混元视频大模型,并在腾讯元宝应用和网页端上线。

目前,腾讯混元视频大模型仅支持文本生成视频,每日可以免费生成 4 次标准品质和 2 次高品质视频。小雷使用腾讯混元大模型生成了一段视频,然而,过于庞大的月亮给人一种虚假的感觉,猫咪舔舐毛发的动作显得十分违和,椰子树的距离也过远,细节缺乏丰富性。

(图源:混元大模型生成)

由于推出时间较短,腾讯混元大模型的生成视频质量明显逊色于可灵和即梦。不过,得益于腾讯作为国内互联网巨头的支持,经过几次迭代更新后,该大模型的生成视频质量有望与可灵和即梦相媲美。

4、Vidu:功能全面,镜头运用自然

Vidu 是由北京数生科技与清华大学联合开发的 AI 视频大模型,尽管其财力不及腾讯或字节跳动,但在大模型的表现上同样出色。最新推出的 1.5 版本支持文生视频和图生视频,并允许用户上传同一主体的不同角度图片,以生成更加真实的立体效果。需要关注的是,免费用户在使用时只能生成 720P 的视频。

通过实际测试,Vidu 生成的视频的质量不输于可灵和即梦,且其镜头运用的流畅度在可灵之上。细节表现也非常出色,海水、椰子树与风等自然元素均得到了生动呈现,仔细观察还能发现远处有身影靠近。唯一的不足之处在于沙滩的质感表现较弱,通常只有在刚退潮的海滩上才会有这样的效果。

(图源:Vidu 生成)

Vidu 的表现相当令人满意,若能开放 API 并探索商业模式,极有可能吸引大量投资。通过这些资金,Vidu 可以购买所需的芯片与视频资源,确保有足够的素材用于训练大模型和增强算力,以加快其发展的步伐。

5、清影:同为清华团队,存在差距

智谱清言的前身是清华大学计算机系的知识工程研究室,与 Vidu 同根同源,甚至在技术传承上更具正统性。

智谱清言所开发的 AI 视频大模型清影功能丰富,支持文生视频与图生视频。用户可以调节文生视频的风格、情感及镜头运用等参数,而图生视频则可生成最长 16 秒、4K 分辨率、60 帧的视频,是小雷体验过的所有视频大模型中生成时间最长的。

然而,清影生成的视频却让小雷感到失望。其他不提,我的猫去哪了??而且画面几乎无法辨认出是视频,小雷差点以为自己生成的是静态图片。

(图源:清影生成)

与同为清华团队的 Vidu 相比,清影在自然语言理解方面显然存在不足,需进一步优化。

6、PixVerse:画面优美,动作略显僵硬

爱诗科技在国内或许不为普通网友所熟知,但其创始人王长虎曾在微软亚洲研究院担任高级研究员,后来跳槽到字节跳动,担任人工智能技术总监和视觉技术负责人,主导了字节跳动视觉大模型的开发。

PixVerse 作为爱诗科技的视频大模型,功能同样丰富,支持特效、风格与比例等多种元素的设置和调整,还可以预设角色,生成最长 8 秒的视频。然而,注册用户仅获得 90 积分,每日额外赠送 30 积分,生成 5 秒视频需消耗 30 积分,而 8 秒视频则需耗费 60 积分。

从生成的视频来看,PixVerse 如其名,画面充满美感,色调非常讨喜,小猫的毛发细节以及水面的波纹都表现得相当出色。

(图源:PixVerse 生成)

与即梦相似,PixVerse 在生成视频时也存在猫咪动作过于生硬的问题。尽管如此,PixVerse 的表现依旧相当出色,让我们见识到了爱诗科技的实力。

视频大模型竞争,细节决定成败

在短短数月内,国内 AI 企业在视频大模型领域已经实现了显著的进步,从无到有的关键步骤正在进行中。就小雷的体验来看,可灵、即梦、Vidu 与 PixVerse 均表现优异,齐名于第一梯队,而腾讯混元视频模型则位列第二梯队,清影则遗憾地处于第三梯队。

由于使用场景与风格要求的差异,各个视频大模型在输出结果上可能存在一定的区别,小雷的体验无法全面展示这些模型的全部实力。

即使是表现优秀的大模型,在细节方面仍然有待改进,除了前文提到的猫咪动作生硬的问题,还有一个普遍存在的现象,即沙滩的沙子在猫咪活动时并不会流动。尽管 AI 视频大模型在不断迭代升级并取得了显著成果,但在细节处理上仍有大量的提升空间。

(图源:豆包 AI 生成)

AI 视频大模型的升级主要集中在自然语言理解、画面细节优化以及运镜和时长等三个关键方面。这三者不仅是 AI 视频大模型发展的基础,也直接影响其未来的成就。只有能够准确解析人类的自然语言,才能使每个人充分发挥想象力。同时,画面和运镜的提升将显著改善视频的整体质量,只有在时长足够的情况下,AI 视频大模型才能成为用户创作微短视频的得力助手。

此外,虽然许多 AI 视频大模型通常采取收费模式,但高昂的费用导致付费用户数量有限,且训练和推理成本居高不下,这使得大多数相关企业面临困境。专注于视频生成的 AI 公司 必须与 B 端客户合作,打造定制版本,或加快技术迭代,以满足 C 端用户的需求,从而寻找盈利机会。

最近,亚马逊云科技、谷歌和 OpenAI 等公司陆续推出了 AI 视频大模型,预计在明年将会有更多企业进入这一领域,竞争将更加白热化。这些领先的公司应迅速利用自身优势,创造盈利机会,以免在日益激烈的市场环境中被淘汰。

2025 年 1 月 7 日,CES(国际消费电子展)即将在拉斯维加斯隆重召开,雷科技报道团队已做好准备,将全程报道,敬请期待。

来源:今日头条
原文标题:别等 Sora 了!这些国产 AI 视频大模型,款款都超能打 – 今日头条
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-06发表,共计4004字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!