这七款AI视频生成大模型的优缺点全面解析！

共计 5208 个字符，预计需要花费 14 分钟才能阅读完成。

在众多 AI 视频生成模型中，Runway、可灵、Luma、Haiper、Dreamnia、Pika 和 Pixverse 这七款工具究竟哪一款使用体验最佳？它们各自的优缺点又是什么呢？

如果要进行梯队推荐，应该如何划分？

身为一名视频工作者，早在 2023 年，我便开始关注 AI 视频技术的进步。当时市场上仅有 Runway 和 Wonder Studio 两款较为先进的工具。然而，经过一年的快速发展，如今 AI 技术的演变令人瞩目，涌现出许多新的 AI 视频工具。

回顾全球市场，我接触到的优质 AI 视频工具共有八款。

这其中包括了当前最强的快手可灵 (kling)、AI 视频领域的先锋 Runway、由 Stable AI 推出的 Stable video diffusion，此外还有崭露头角的 Pika、国人开发的面向全球的 Pixverse，以及剪映旗下的即梦 AI。尽管 6pen pro 是由一家小型创业公司开发，但在图文视频资源整合方面表现不俗。此外，Wonder Studio 作为一个由 AI 驱动的 CG 角色动画工具，也为其增添了不少竞争力。

不过，尽管我提到的只有八款工具，业内人士都知道，还有两个潜在的隐形巨头，一个是 OpenAI 旗下的 Sora，另一个则是 AI 绘画界的领导者 Midjourney 推出的视频版本。

Sora 不仅能够精准理解长达 135 个词汇的复杂句子，还能生成最长达 60 秒的高保真视频，几乎超越现有所有 AI 视频工具；与此同时，Midjourney 在 AI 绘画领域的优秀表现，让人们对其视频工具充满期待。

可惜的是，这两款工具目前尚未正式向公众发布，因此我们只能依赖其他工具进行 AI 视频和图像的创作。

下面是这八款工具的详细介绍：

官网：https://kling.kuaishou.com/

起初，我并未将可灵纳入推荐之列，但它的问世却引起了对 AI 视频生成的广泛关注。

可灵这一大模型基于快手多年积累的技术，采用与 Sora 相似的技术路线，并结合多项自主研发的技术创新。可灵 AI 现已推出网页版，集成了文本生成图像、文本生成视频等功能，未来还将支持视频编辑，成为一站式视觉内容创作平台。它能够生成分辨率达到 1080p、时长最长可达 2 分钟（帧率 30fps）的视频，并支持灵活的宽高比。

最值得一提的是，目前可灵正在推广阶段，所有功能均为免费使用。

可灵在视频编辑方面的创新主要体现在以下几点：

1. 首尾帧控制：用户可以自定义视频的起始和结束帧，实现平滑过渡，提升创意和灵活性。

2. 镜头运动控制：提供多种镜头运动选项，如旋转、摇镜、推拉等，丰富视觉效果，满足不同创作需求。

3. 自动大师运镜：可灵 AI 的自动运镜功能能帮助用户生成更具电影感的视频，提升吸引力。

4. 高画质生成：在编辑过程中，确保视频输出高分辨率和高质量，达到专业水准。

5. 物理规律模拟：生成时可模拟现实物理特性，确保内容自然流畅。

6. 大幅度运动生成：可灵支持生成动态丰富的运动效果。

7. 长视频生成能力：可生成时长数分钟的 1080p、30fps 视频，满足更长内容的需求。

8. 视频续写功能：用户可指定故事发展方向进行续写，使视频更加连贯。

截至目前（2024 年 7 月 19 日），可灵无疑是市面上最强的可用视频工具之一。

Runway 目前功能最为全面的 AI 视频平台之一，除了文本生成视频、图像生成和音频对口型等主要功能外，还有视频编辑、运动跟踪等多种附加功能，并配备超过 30 个 AI 工具和多种视频风格模型，支持一键风格转换、语音生成等。

然而，对于国内用户而言，Runway 的网页速度和充值体验可能并不友好，建议科学上网以便使用谷歌账号登录。

官方网站：https://www.stablevideo.com/

Stable Video Diffusion（SVD）是由 Stability AI 团队基于 Stable Diffusion 模型开发的开源视频生成模型。同时，Stability AI 还推出了面向大众的网页版 AI 视频网站 Stable video，用户可通过谷歌账号直接在线生成视频。

Stable Video Diffusion 的生成过程以文本生成图像为基础，再转换为视频，支持 14 帧和 25 帧图像，帧速率可在 3 到 30 帧每秒之间自定义。

用户只需上传一张图片并输入提示词即可生成视频，同时提供多样化的相机运动选项，以更精细地控制视觉效果。

相机运动：用户可以选择锁定相机或增加抖动效果，以模拟真实拍摄体验。变焦：通过选择“放大”和“缩小”来控制画面中某元素的视觉效果。倾斜：上下倾斜的相机动作，为视频增添动态变化。轨道运动：相机围绕对象旋转，创造环绕视角。平移：水平移动相机，展示宽阔场景。推拉镜头：相机前后移动，制造深入或退后的视觉效果。移动：控制相机在场景中的上下或左右移动。

SVD 在视频生成领域具有革命性，尤其在 3D 合成技术方面，由于其开源特性，许多开发者和高端用户会选择在本地安装 SVD，结合 ComfyUI 来创造惊艳的动画和转场效果。

然而，这种操作界面对普通用户来说并不友好，可能仅在开发者和高阶用户中流传。未来应该会出现更便捷的集成功能工具，让用户轻松实现相同效果。

比如，剪映最近推出的视频翻译功能，实质上是通过一键生成字幕、文本翻译、英文转语音和视频对口型的结合，用户在界面上只需点击“视频翻译”选项即可。

Pika

官方网站：https://pika.art/

Pika 由 Pika Labs 开发，是一款先进的 AI 视频生成工具，支持文本生成视频、图像生成和视频转视频。Pika 1.0 版本引入了强大的新功能，如视频风格转换、内容编辑和画幅更改，使用户能够进行深度再创作和风格转换，快速生成多种风格的视频，包括 3D 动画、动漫和电影等。

Pika Labs 可以视为 AI 视频领域的一匹黑马，短时间内完成了三轮总计 5500 万美元的融资，估值达到 2 亿至 3 亿美元。其创始人是两位斯坦福博士生，他们认为制作视频太困难，因此希望让每个人都能轻松制作视频。

Pika 的特点在于面向普通用户，操作界面十分友好。如果用户不知道生成什么样的视频，AI 还可以自动提供随机提示词，并且生成的视频支持一键配音。

Pika 的生成质量相当不错，唯一的不足在于国内无法正常访问，需要科学上网。

Pixverse

官网网站：https://app.pixverse.ai/login

Pixverse 是北京爱诗科技推出的 AI 生成视频产品，该公司专注于 AI 视频生成技术，由前字节跳动视觉技术负责人王长虎创立。Pixverse 界面友好，操作简单，国内用户无需翻墙即可使用。

Pixverse 目前支持文本生成视频和图像生成，输入文字即可生成视频，无需经过图像生成的中间步骤。图像生成则通过上传图片和输入提示词，调整运动幅度和随机种子数值。

Pixverse 在人物动作提示词的理解能力上表现出色，尤其在人物动作方面，输入提示词与不输入提示词的效果相差甚远。最近推出的角色一致性功能，能生成面孔一致的角色，用户上传特定人物图片后，可以生成不同发型、着装和场景的版本。

Pixverse 目前生成的单个视频时长为 4 秒，效果上与 Runway、Pika 等工具不相上下，各有优劣。

即梦 AI

官网：https://dreamina.jianying.com/ai-tool/platform

剪映即梦 AI 是抖音旗下的 AIGC 工具，用户可以根据文本内容生成创意图，支持调整图片大小和模板类型。近期刚上线的 AI 视频支持文本生成和图像生成，能够生成 3 秒视频，会员版可进行二次渲染，将视频时长延长至 6 秒，并提升效果流畅度。

在易用性方面，即梦 AI 借鉴了 Pika 的设计理念，界面简单易用，任何用户都能轻松上手。

除了网页端入口，Dreamina 的图像生成工具也已整合至剪映中。由于剪映拥有庞大的用户基础，即梦 AI 可能会在移动视频编辑和 AI 视频生成领域占据一席之地。

视频生成效果与 Stable video 相似，但经过调优，效果甚至优于 Stable video，当前每天有 60 个信用点的免费额度，用户可生成 5 个视频，唯一的不足是生成的视频带水印，需开通会员才能下载无水印版本。

6pen pro

官网：https://www.6pen.pro/

6pen Pro 是 6pen.art 的升级版，集成了 AI 创意助手、AI 图像生成、AI 声音克隆、AI 对口型视频、AI 换脸、AI 图生视频等多种能力，专注于探索生成式 AI 的组合能力。

在国内开发者中，6pen 团队独树一帜。早期由于本地无法安装 Stable diffusion，我苦苦寻求在线工具时，6pen 恰好进入我的视野。

与国内其他无法调整参数的 AI 绘画工具不同，6pen 提供了丰富的自定义选项，用户可以调整模型、种子、参考图像、分辨率、风格等，极具可玩性。

6pen Pro 的主要优势在于将包括 Stable diffusion XL、DALL·E·3 等多种模型组合，形成工作流，打通不同功能的组合使用。

例如，用户可通过工作流将声音克隆和对口型视频生成结合，创造出完整的复活亲人的应用，且可自定义参数。下次使用时，输入所需内容即可，无需再寻找。

再如，将图像生成视频和视频顺滑结合，可实现一键生成 6 秒视频，适合追求效率的用户。虽然 6pen 的 AI 视频底层仍基于 SVD，但通过视频顺滑效果，生成的 6 秒视频效果优于官方 Stable video 生成的效果。

对于追求高效率和快速出片的团队而言，这种工作流确实能提升效率，然而该方式也有局限性，AI 视频常带有盲盒性质，需要反复生成才能找到满意的结果，若效果不佳，额外的处理效果也可能浪费资源。

Wonder Studio

官网：https://wonderdynamics.com/

Wonder Studio 是一款基于 AI 的 CG 角色动画工具，能够自动化角色动画、打光和合成到真实场景中。该工具旨在通过 AI 技术简化传统影视特效制作流程，提高效率和可访问性。

严格来说，Wonder Studio 的工作原理依然是视频抠像、绑定跟踪和 3D 模型替换。

用户无需昂贵的动作捕捉设备或专业 3D 建模师，只需一台可以拍摄的相机即可完成角色动画捕捉和自动识别。通过简单的拖拽操作，用户可以将视频素材导入到 Wonder Studio，AI 自动识别视频中的角色，并将 CG 模型替换到视频中，从而快速生成带有动画的场景。同时，官方提供了一些预设模型，并支持用户上传自定义模型。

尽管 Wonder Studio 并非传统的 AI 生成工具，但在 AI 视频制作领域仍占有一席之地，尤其在简化复杂动画制作流程和降低成本方面显示出巨大潜力，为独立创作者和小团队提供了与大型工作室竞争的机会。

总结

以上便是我目前接触到的 AI 视频工具。个人认为，除 Sora 之外，现有的 AI 文本生成视频工具在效果上仍有待提升。

其最明显的问题在于，这些工具生成的视频中，仍能清晰看到 AI 运算的痕迹，特别是在动作方面，几乎没有工具能够让角色完成完整的大幅度动作。因此，很多 AI 视频中的人物场景往往以慢动作和静态镜头的形式展现，因其人物动作难以控制。

另一个待改进的痛点是，当前主流 AI 视频工具在图像生成视频时，几乎无一例外会损失原图的画质，生成的视频清晰度和细节通常不如原图。当然，部分工具如 Pixverse、Pika 等在这方面有所优化，但整体上仍存在画质损失的问题。

不过，这些缺点并非无法解决，关键在于 AI 视频工具的另一痛点——盲盒性质。生成视频就如同抽盲盒，用户永远无法预知生成结果，常常需要多次尝试才能获得理想镜头。

因此，若想制作高质量的 AI 短片，用户必须做好大量尝试的准备。抽卡次数越多，接近理想画面的概率也越高。

换句话说，若想制作 AI 短片，至少需要足够的预算用于这些工具的充值。当然，高阶用户可以通过本地版 SVD 来降低成本，但目前 SVD 的效果仍不如 Runway、Pika 和 Pixverse。

展望未来，考虑到 AI 领域的迅速进步，这些痛点很可能会在不久的将来得到解决。希望在下一版本更新中，以及备受期待的 Sora 和 Midjourney 视频版能够正式发布，为 AI 视频生成带来新的惊喜。

来源：知乎

原文标题：以下这 7 款 AI 视频生成大模型各自有什么优缺点？– 知乎

原文链接：https://www.zhihu.com/question/664986080/answer/27305775764