共计 1701 个字符,预计需要花费 5 分钟才能阅读完成。
在 8 月 22 日,可灵 AI 正式推出其最新的 2.1 模型,带来了首尾帧功能的重大升级。通过增强端到端的多模态语义推理能力,这一新功能显著改善了首尾帧视频的生成效果。据测试数据显示,2.1 版本相比于 1.6 版本,效果提升高达 235%,在视频转场、视觉表现、运镜技巧及营销素材的制作等方面都展现出卓越的性能。
优化转场效果 实现自然场景衔接
可灵 2.1 模型在首尾帧功能上的一大亮点是有效解决了 AI 视频生成中常见的转场问题,比如场景的衔接显得生硬或者有“刹车感”。
在测试视频中,一名年轻的亚洲女性在一个堆满书籍和佛像的房间中转身,镜头逐渐推进到装饰日益金色的空间。在此过程中,角色的发型(长发自然垂落转为侧梳)、服装(白色长袖衬衫变为无袖上衣)、光线(暖光由散射转为聚焦)实现了无缝连接,场景转换逻辑十分顺畅。这一案例通过多个首尾帧的相接,展现了模型在艺术风格变化与角色动态衔接方面的优越能力。
提升视觉表现 增强画面感染力
可灵 2.1 的首尾帧功能在视觉效果上也取得了显著提升,能够辅助创作出更加富有张力的视觉效果。
在实际测试的视频中,人物轮廓在深蓝背景中逐渐转变为火焰形态,火山岩浆流淌、星空下的烈焰升腾等细节清晰可见,节奏感与紧张的氛围相得益彰,充分展示了模型对复杂视觉元素的掌控能力。
支持专业运镜 提升沉浸式观看体验
可灵 2.1 的首尾帧功能还支持专业级的复杂运镜,通过连续的首尾帧衔接,实现镜头轨迹与场景逻辑的完美匹配。
例如,在模型生成的连续视频中,镜头首先快速向左下方摇动,突出趴在地上的破旧机器人,随后迅速左摇,拍摄逃跑的机器人与爆炸场景,整个镜头调度自然流畅,增强了观众的沉浸感。
助力创意营销 降低制作成本
经过升级的首尾帧功能能够迅速生成符合品牌形象的创意展示视频,尤其适合市场营销等领域,有效降低了素材制作的费用。
例如,在一则饮品广告中,易拉罐从树莓中快速飞出,周围的树莓如同爆炸般散开,果汁向四周飞溅,整个过程十分自然,给观众带来沉浸式的体验。
专业评估人员对可灵 2.1 与其他模型如可灵 1.6、Seedance1.0 mini、Midjourney 等进行了首尾帧功能的效果评测。结果显示,2.1 版本在整体效果及多个细分维度上表现卓越:与 Seedance1.0 mini 相比,整体 GSB 得分达到 2.09;与 Midjourney 相比,整体 GSB 得分为 2.30;与可灵 1.6 相比,整体 GSB 得分为 3.35。在与 Midjourney、Seedance1.0 mini 的偏好对比中,2.1 版本的胜率分别为 62% 和 57%。
这种出色表现源于可灵 2.1 在端到端优化的多模态语义推理能力上取得的进展。该模型能够深度整合用户的提示词与首尾帧图片中的视觉语义及动作意图,融合多模态数据,捕捉并推理画面元素在时空维度上的变化逻辑,从而在艺术风格切换、角色衔接、复杂运镜与场景迁移等方面生成自然流畅的动态画面。
值得一提的是,可灵 2.1 还引入了自适应扩散引导与方向重定向机制,使得在生成的每一步能够对条件分布进行动态引导和修正,确保动作的衔接平滑,运动节奏稳定可控。
此外,该模型在生成过程中保持人物或物体身份的一致性、色彩风格与画面基调的连贯性,极大提升了视频的专业质感。面对高动态场景下的局部失真、细节破碎、缩放变形及首尾帧视觉跳变等问题,该机制能够有效抑制和纠正错误,确保生成内容的稳定性。
作为一个 AI 创意生产力平台,可灵 AI 已经历了 30 次迭代,服务用户超过 4500 万,累计生成的各类视频超过 2 亿条、图片超过 4 亿张,覆盖广告、影视、游戏等多个行业。这次 2.1 模型的首尾帧功能发布,进一步提升了视频生成的一致性和稳定性,适用于广告营销、影视、短剧、动画等创意制作场景,进一步巩固了其在 AI 视频生成领域的领导地位。
                        
                                    