共计 3312 个字符,预计需要花费 9 分钟才能阅读完成。
作者 | ZeR0
编辑 | 漠影
据智东西在4月22日的报道,生数科技推出的全新AI视频生成模型Vidu Q1,再次在多个权威的文生与图生视频基准测试中脱颖而出,荣登榜首。
此款模型能够生成清晰稳定的1080p分辨率5秒视频,并已在网页端(http://Vidu.cn)和移动端上线。
与其前身2.0版本相比,Vidu Q1在语义理解、画质、动作流畅性、美学效果以及逼真度上都有了明显提升,首尾帧的衔接变得更加自然,用户只需上传两张图片即可生成流畅的镜头运作。
该系统的性价比极具竞争力。生成一个1080p的5秒视频,最低仅需1.34元,每秒的价格更是低至0.3元,仅为同类产品的1/10。
Vidu Q1在动态表现上也十分出色,能够处理特写镜头、特效和微缩镜头,生成的内容可直接用于商业用途,适合广告、短剧、电商及互动娱乐等多个场景。例如,可以利用其制作耳机或香水的广告片:
有海外用户反馈,Vidu Q1在遵循提示词方面的表现显著提高,能够执行更为复杂的指令,比Veo2的效果更佳。
一位网友展示了通过Vidu Q1制作的毛毡风格动画。在视频中,小狗的虚化与清晰效果转换显得极为流畅自然。
Vidu Q1在国际上获得了VBench-1.0和VBench-2.0两个权威视频生成评测榜单的双冠,得分超过了Runway、Sora、Luma AI等知名视频生成模型,并在视频质量、语义一致性以及常识推理、物理理解等多个维度上达到了最先进的水平。
与此同时,Vidu Q1在国内权威的通用大模型综合测评基准SuperCLUE的最新图生视频榜单中,获得了动漫与写实风格的双榜首。
生数科技新推出的AI音效功能,可以根据简单的提示生成个性化音效,并精确控制每段音频的播放时机。
一、仅需两张图片便可实现电影级运镜,视频风格多样,人物遮挡也毫无问题
Vidu Q1的首尾帧功能已获得升级,用户仅需提供两张图片即可实现电影级的镜头切换效果。
例如,上传这两张图片,分别作为开始帧和结束帧:
输入以下提示词“女特工持枪射击,子弹穿透玻璃球瞬间爆炸,吉恩·科兰风格的漫画,紧张刺激的动画场景”,生成的视频效果如下:
在电影场景生成方面,Vidu展现出了几乎无法与真实区分的画面质量,它对复杂语义的理解能力也相当出色。
比如,可以让Vidu Q1根据以下提示生成视频:
提示词:深夜的古堡走廊,一名身着西装的男子手握蜡烛,转身走过走廊,两侧的灯光闪烁不定,氛围紧张,镜头向前推进,最终定格在男子的脸庞。
提示词:车厢内寂静无声,老人抽着香烟,烟雾缭绕,车厢中的灯光忽明忽暗,镜头逐渐推进,最终聚焦在老人的脸上。
提示词:镜头聚焦于一位穿着皮夹克的男子,他独自在白天的城市街道上行走。阳光在地面上投射出真实的阴影,背景中有汽车和行人,而模糊的画面则以电影般的写实风格呈现。
在主角快速移动且环境复杂的情况下,Vidu Q1依然能够生成流畅自然的人物运动视频。
提示词:一幅黑白照片,优雅的黑发女子穿过人群,动作模糊,从街道拍摄,身着现代服饰,仿若穿越时空,电影摄影效果,形成强烈对比,颗粒感显著。
在AI动漫场景生成方面,Vidu Q1不仅延续了其卓越的表现,还对动漫风格进行了全面升级,支持多种风格如日漫和3D动漫,风格在一致性方面表现良好,动态效果自然流畅,画面生动精彩。
提示词:活力四射的动漫风格水下场景,一个双马尾的女孩,头发水蓝色,身穿水手服,轻轻悬浮在水中,伸手去抓那些在闪烁气泡和旋转光束中游动的金橙色锦鲤,营造出魔幻的氛围,细节超丰富,呈现吉卜力风格的幻想,宽高比为16:9。
提示词:一个身穿运动服的超现实动漫风格女孩,被特写镜头捕捉到,她满脸雀斑,汗流浃背,脸颊绯红,睁大的眼睛反映出情感和好奇,对着镜头眨眼微笑,慢慢地把手伸向屏幕,广角微距镜头拍摄,超现实的纹理与风格化的柔和相结合,充满情感的时刻,16:9 的宽高比”
由于Vidu Q1生成的视频被转换为gif格式,因此画质有所损失。原始视频的清晰度很高,能够清楚地展示皮肤上的细腻纹理和汗水的痕迹。
此外,Vidu Q1还具备文生视频和图生视频的功能,下方展示的是利用图生视频技术制作的日漫风格示例。
二、AI音效功能上线:精准控制时间节点,实现多段音效叠加,首创48KHz高保真支持
除了推出Vidu Q1,生数科技还发布了全新的AI音效(AI Sound Effects)。该功能的亮点主要体现在三个方面:
(1)精准时间控制:用户可以精确设定每段音效的持续时间,并具体安排音频出现的时刻,例如:0-2秒为风声,3-5秒为雨声。这是在商业领域中首个支持精细时间控制的文生音效系统。
(2)多音效叠加:该系统允许用户同时叠加多个音效,例如在暴雨天气场景中,雨声、风声和雷声等多种声音可以和谐共存,通过“音效叠加”实现丰富且动态的音效效果,具备电影级的混音表现能力。
比如,可以使用该功能生成键盘声与咖啡机的复合音效。
提示词:{“提示”: “@{敲打键盘 & <0.00,8.00>}@{打印机噪声 & <2.00,3.00>}@{咖啡机 & <4.50,5.50>}”,”开始秒数”: 0,”结束秒数”: 8.0}
https://oss.zhidx.com/6a38564285e426ec787499f26a53868e/6806dc00/uploads/2025/04/6805d2147e511_6805d214701f1_6805d214701c8_%E9%94%AE%E7%9B%98%E5%A3%B0%E5%92%96%E5%95%A1%E6%9C%BA%E5%A4%8D%E5%90%88%E9%9F%B3%E6%95%88.wav?_=1
(3)高采样率音频,卓越音质:目前行业大部分音频采样率为16kHz或32kHz,而Vidu Q1在商业领域首创支持48KHz的文生音效系统,极大地改善了音效的清晰度,避免了声音刺耳、压缩失真等问题。
用户可以体验利用该功能生成的48kHz高保真的蟋蟀声和“世界毁灭”氛围音效:
提示词:蟋蟀声
https://oss.zhidx.com/22f104474f260f2803505157442bbdc3/6806dc00/uploads/2025/04/6805d34503407_6805d344f3ada_6805d344f3a9c_%E8%9F%8B%E8%9F%80%E5%A3%B0.mp3?_=2
提示词:形容世界毁灭的音乐
https://oss.zhidx.com/6e33931372d9247dba8d5e4a625a5387/6806dc00/uploads/2025/04/6805d3926c929_6805d392663fa_6805d392663d2_vidu-audio-2715656890707246.mp3?_=3
结语:AI视频生成的加速进程,正在重塑视频制作的未来
生成式AI正在以前所未有的速度改变视频制作的方式。随着AI视频生成工具的不断迭代与升级,预计将使动漫、影视、广告、视频剪辑以及UGC创作等多个领域获益匪浅。
AI视频生成技术的迅猛发展与创新应用
近年来,人工智能视频生成模型的发展势头令人瞩目。从最初只能制作短暂的简单视频片段,如今已能创造出更加复杂、连贯且自然的高质量视频内容。这一进步不仅拓宽了视频创作的边界,还降低了创作的技术门槛。
以Vidu Q1的发布为例,我们可以发现,准确的语义解读、逼真的表现能力、角色的一致性以及强大的时空连贯性,都是当下视频生成模型在提升输出质量方面的重要优化方向。
同时,优秀的AI视频工具还需配备更加丰富便捷的编辑功能,以满足用户的多样化需求。
生数科技最近推出的AI音效功能,正好与视频生成功能形成了良好的互补。用户只需输入一段文字,系统便能自动生成与视频场景相匹配的背景音乐或个性化音效,极大地节省了寻找音效库的时间,同时也减少了对高价版权音乐的依赖。