国产视频大模型双榜夺冠！超越Runway与Sora，运镜流畅如丝！

没有评论

共计 3312 个字符，预计需要花费 9 分钟才能阅读完成。

作者 | ZeR0
编辑 | 漠影

据智东西在4月22日的报道，生数科技推出的全新AI视频生成模型Vidu Q1，再次在多个权威的文生与图生视频基准测试中脱颖而出，荣登榜首。

此款模型能够生成清晰稳定的1080p分辨率5秒视频，并已在网页端（http://Vidu.cn）和移动端上线。

与其前身2.0版本相比，Vidu Q1在语义理解、画质、动作流畅性、美学效果以及逼真度上都有了明显提升，首尾帧的衔接变得更加自然，用户只需上传两张图片即可生成流畅的镜头运作。

该系统的性价比极具竞争力。生成一个1080p的5秒视频，最低仅需1.34元，每秒的价格更是低至0.3元，仅为同类产品的1/10。

Vidu Q1在动态表现上也十分出色，能够处理特写镜头、特效和微缩镜头，生成的内容可直接用于商业用途，适合广告、短剧、电商及互动娱乐等多个场景。例如，可以利用其制作耳机或香水的广告片：

有海外用户反馈，Vidu Q1在遵循提示词方面的表现显著提高，能够执行更为复杂的指令，比Veo2的效果更佳。

一位网友展示了通过Vidu Q1制作的毛毡风格动画。在视频中，小狗的虚化与清晰效果转换显得极为流畅自然。

Vidu Q1在国际上获得了VBench-1.0和VBench-2.0两个权威视频生成评测榜单的双冠，得分超过了Runway、Sora、Luma AI等知名视频生成模型，并在视频质量、语义一致性以及常识推理、物理理解等多个维度上达到了最先进的水平。

与此同时，Vidu Q1在国内权威的通用大模型综合测评基准SuperCLUE的最新图生视频榜单中，获得了动漫与写实风格的双榜首。

生数科技新推出的AI音效功能，可以根据简单的提示生成个性化音效，并精确控制每段音频的播放时机。

Vidu Q1的首尾帧功能已获得升级，用户仅需提供两张图片即可实现电影级的镜头切换效果。

例如，上传这两张图片，分别作为开始帧和结束帧：

输入以下提示词“女特工持枪射击，子弹穿透玻璃球瞬间爆炸，吉恩·科兰风格的漫画，紧张刺激的动画场景”，生成的视频效果如下：

在电影场景生成方面，Vidu展现出了几乎无法与真实区分的画面质量，它对复杂语义的理解能力也相当出色。

比如，可以让Vidu Q1根据以下提示生成视频：

提示词：深夜的古堡走廊，一名身着西装的男子手握蜡烛，转身走过走廊，两侧的灯光闪烁不定，氛围紧张，镜头向前推进，最终定格在男子的脸庞。

提示词：车厢内寂静无声，老人抽着香烟，烟雾缭绕，车厢中的灯光忽明忽暗，镜头逐渐推进，最终聚焦在老人的脸上。

提示词：镜头聚焦于一位穿着皮夹克的男子，他独自在白天的城市街道上行走。阳光在地面上投射出真实的阴影，背景中有汽车和行人，而模糊的画面则以电影般的写实风格呈现。

在主角快速移动且环境复杂的情况下，Vidu Q1依然能够生成流畅自然的人物运动视频。

提示词：一幅黑白照片，优雅的黑发女子穿过人群，动作模糊，从街道拍摄，身着现代服饰，仿若穿越时空，电影摄影效果，形成强烈对比，颗粒感显著。

在AI动漫场景生成方面，Vidu Q1不仅延续了其卓越的表现，还对动漫风格进行了全面升级，支持多种风格如日漫和3D动漫，风格在一致性方面表现良好，动态效果自然流畅，画面生动精彩。

提示词：活力四射的动漫风格水下场景，一个双马尾的女孩，头发水蓝色，身穿水手服，轻轻悬浮在水中，伸手去抓那些在闪烁气泡和旋转光束中游动的金橙色锦鲤，营造出魔幻的氛围，细节超丰富，呈现吉卜力风格的幻想，宽高比为16：9。

提示词：一个身穿运动服的超现实动漫风格女孩，被特写镜头捕捉到，她满脸雀斑，汗流浃背，脸颊绯红，睁大的眼睛反映出情感和好奇，对着镜头眨眼微笑，慢慢地把手伸向屏幕，广角微距镜头拍摄，超现实的纹理与风格化的柔和相结合，充满情感的时刻，16：9 的宽高比”

由于Vidu Q1生成的视频被转换为gif格式，因此画质有所损失。原始视频的清晰度很高，能够清楚地展示皮肤上的细腻纹理和汗水的痕迹。

此外，Vidu Q1还具备文生视频和图生视频的功能，下方展示的是利用图生视频技术制作的日漫风格示例。

除了推出Vidu Q1，生数科技还发布了全新的AI音效（AI Sound Effects）。该功能的亮点主要体现在三个方面：

（1）精准时间控制：用户可以精确设定每段音效的持续时间，并具体安排音频出现的时刻，例如：0-2秒为风声，3-5秒为雨声。这是在商业领域中首个支持精细时间控制的文生音效系统。

（2）多音效叠加：该系统允许用户同时叠加多个音效，例如在暴雨天气场景中，雨声、风声和雷声等多种声音可以和谐共存，通过“音效叠加”实现丰富且动态的音效效果，具备电影级的混音表现能力。

比如，可以使用该功能生成键盘声与咖啡机的复合音效。

提示词：{“提示”: “@{敲打键盘 & <0.00,8.00>}@{打印机噪声 & <2.00,3.00>}@{咖啡机 & <4.50,5.50>}”,”开始秒数”: 0,”结束秒数”: 8.0}

https://oss.zhidx.com/6a38564285e426ec787499f26a53868e/6806dc00/uploads/2025/04/6805d2147e511_6805d214701f1_6805d214701c8_%E9%94%AE%E7%9B%98%E5%A3%B0%E5%92%96%E5%95%A1%E6%9C%BA%E5%A4%8D%E5%90%88%E9%9F%B3%E6%95%88.wav?_=1

（3）高采样率音频，卓越音质：目前行业大部分音频采样率为16kHz或32kHz，而Vidu Q1在商业领域首创支持48KHz的文生音效系统，极大地改善了音效的清晰度，避免了声音刺耳、压缩失真等问题。

用户可以体验利用该功能生成的48kHz高保真的蟋蟀声和“世界毁灭”氛围音效：

提示词：蟋蟀声

https://oss.zhidx.com/22f104474f260f2803505157442bbdc3/6806dc00/uploads/2025/04/6805d34503407_6805d344f3ada_6805d344f3a9c_%E8%9F%8B%E8%9F%80%E5%A3%B0.mp3?_=2
提示词：形容世界毁灭的音乐

https://oss.zhidx.com/6e33931372d9247dba8d5e4a625a5387/6806dc00/uploads/2025/04/6805d3926c929_6805d392663fa_6805d392663d2_vidu-audio-2715656890707246.mp3?_=3

生成式AI正在以前所未有的速度改变视频制作的方式。随着AI视频生成工具的不断迭代与升级，预计将使动漫、影视、广告、视频剪辑以及UGC创作等多个领域获益匪浅。

近年来，人工智能视频生成模型的发展势头令人瞩目。从最初只能制作短暂的简单视频片段，如今已能创造出更加复杂、连贯且自然的高质量视频内容。这一进步不仅拓宽了视频创作的边界，还降低了创作的技术门槛。

以Vidu Q1的发布为例，我们可以发现，准确的语义解读、逼真的表现能力、角色的一致性以及强大的时空连贯性，都是当下视频生成模型在提升输出质量方面的重要优化方向。

同时，优秀的AI视频工具还需配备更加丰富便捷的编辑功能，以满足用户的多样化需求。

生数科技最近推出的AI音效功能，正好与视频生成功能形成了良好的互补。用户只需输入一段文字，系统便能自动生成与视频场景相匹配的背景音乐或个性化音效，极大地节省了寻找音效库的时间，同时也减少了对高价版权音乐的依赖。

来源：今日头条

原文标题：国产视频大模型双榜登顶！分数超 Runway、Sora，一镜到底运镜丝滑 – 今日头条

原文链接：https://toutiao.com/group/7496018303056364068/

正文完