共计 1663 个字符,预计需要花费 5 分钟才能阅读完成。
【环球网科技综合报道】在 8 月 22 日,可灵 AI 正式发布了其全新 2.1 模型的首尾帧功能。此项功能通过提升端到端多模态语义推理能力,显著改善了首尾帧视频的生成质量。根据测试结果,相较于 1.6 版本,其效果提升达到了 235%,在视频转场、视觉呈现、运镜处理以及营销素材制作等多方面表现优异。
改善转场效果 实现流畅的场景转换
可灵 2.1 模型的首尾帧功能最大的进步之一,是解决了 AI 视频生成中常见的转场问题,比如场景衔接生硬与“刹车感”等现象。

在测试视频中,一位年轻的亚洲女性从一个满是书籍和佛像的房间转身,镜头随之推进至渐添金色装饰的空间。过程中,角色的发型(由自然垂落变为侧梳)、服装(从白色长袖衬衫变为无袖上衣)、光线(暖光从散射变为聚焦)实现了自然衔接,场景切换逻辑清晰。这一示例通过多个首尾帧的连接,展现了模型在艺术风格转换与角色动态连贯性方面的出色能力。
提升视觉效果 增强画面表现力
可灵 2.1 的首尾帧功能在视觉表现上有了显著提升,能够帮助制作出更具张力的视觉效果。

在实测中,人物轮廓在深蓝背景中逐渐转化为火焰的形态,火山岩浆流动、星空下火焰升腾等细节清晰可见,整体节奏与紧张氛围相得益彰,展现了模型对复杂视觉元素的精准控制。
支持专业运镜 增强观看的沉浸感
可灵 2.1 的首尾帧功能允许进行专业级的复杂镜头运作,通过连续衔接的首尾帧,达到镜头轨迹与场景逻辑的匹配。
例如,在模型生成的一段视频中,镜头首先快速左下摇动,突出趴在地上爬行的破旧机器人,随后快速左摇,捕捉逃窜的机器人与爆炸场面,整个镜头调度流畅无阻,提升了观看的沉浸感。

助力创意营销 降低素材制作费用
升级后的首尾帧功能能够迅速生成符合品牌调性的创意展示视频,适用于市场营销等多个领域,有效降低了素材制作的成本。

在一则饮品广告案例中,易拉罐从树莓中迅速飞出,周围的树莓如爆炸般四散,果汁飞溅的过程自然,带给观众沉浸式的体验。
专业评估人员对可灵 2.1、可灵 1.6、Seedance1.0 mini、Midjourney 等模型的首尾帧功能进行了效果比较。结果显示,可灵 2.1 在整体效果及多个细分维度上表现优异:与 Seedance1.0 mini 相比,整体 GSB 得分达到 2.09,和 Midjourney 对比时的整体 GSB 得分为 2.30,与可灵 1.6 相比的整体 GSB 得分为 3.35;在与 Midjourney、Seedance1.0 mini 进行的两两偏好比较中,可灵 2.1 的胜率分别为 62% 与 57%。

这一优秀表现源于可灵 2.1 在端到端优化的多模态语义推理能力方面的显著提升。模型能够深度整合用户输入的提示词与首尾帧图片中的视觉语义及动作意图,融合多模态数据,捕捉并推理画面元素在时空维度上的演变逻辑,从而在艺术风格切换、角色衔接、复杂运镜与场景迁移等方面,生成自然流畅的动态画面。
此外,可灵 2.1 引入了自适应扩散引导与方向重定向机制,确保在扩散生成的每一步对条件分布进行动态的引导和调整,纠正偏离语义或视觉逻辑的动态路径,确保动作的衔接平滑,运动节奏稳定而可控。
同时,模型在生成过程中保持人物及物体身份的一致性,并且色彩风格和画面基调的连贯性得到了提升,增强了视频的专业质感。在高动态场景中,针对局部失真、细节破碎、缩放变形以及首尾帧视觉跳变等问题,该机制能够有效抑制和修正错误,确保生成内容的稳定性。
作为一个 AI 创意生产力平台,可灵 AI 已完成了 30 次迭代,服务用户超过 4500 万,累计生成的视频超 2 亿条,图片超 4 亿张,涵盖广告、影视、游戏等多个行业。此次推出的 2.1 模型首尾帧功能,进一步提升了视频生成的一致性与稳定性,适用于广告营销、影视、短剧、动画等创意制作场景,进一步巩固了其在 AI 视频生成领域的领先地位。
