共计 1925 个字符,预计需要花费 5 分钟才能阅读完成。
记者 | 肖芳
编辑 | 宋佳楠
最近,百度的首席执行官李彦宏表示“百度不会开发Sora”一事引发了广泛的讨论,尤其是在微博和小红书等社交平台上,关于“中国版Sora是否值得开发”的话题再次成为焦点。
在一场内部会议中,李彦宏指出,Sora这类视频生成模型的投入周期过于漫长,甚至可能需要10年或20年才能实现盈利,因此,无论其受欢迎程度如何,百度都不会参与这一项目。
对此,一些反对意见认为,这实际上是百度自身业务的短板。目前,快手和字节跳动是国内在视频生成模型领域最具潜力的公司,因其业务与视频内容紧密相关,随着其视频生成技术的不断成熟,将能够迅速吸引新用户并提升用户体验。
快手和字节跳动在国内互联网行业中,积极布局视频生成大模型。自Sora发布后,快手推出了名为“可灵”的文生视频大模型,其技术原理与OpenAI的Sora相似,都是将用于视频生成的扩散模型与Transformer架构结合。依托于快手的短视频平台,可灵拥有丰富的视频数据用于训练。在可灵推出几个月后,字节跳动的火山引擎也发布了豆包视频生成的两款大模型——PixelDance和Seaweed,面向企业市场进行邀测。
除了快手和字节跳动,其他如阿里云、Minimax、生数科技、智谱AI等公司也在今年推出了视频生成模型。
尽管国内的视频生成模型行业表面上繁荣,但实际上正面临严峻的挑战。李彦宏的看法并非没有依据。
根据一位从事视频生成模型的技术专家透露,生成式人工智能技术大幅降低了视频生成的门槛,使视频数据的增长速度达到了20倍,这对计算成本和效率带来了极大的挑战。以Sora模型为例,其训练和推理所需的算力分别是GPT-4的4.5倍和近400倍。
中国银河证券的研究报告也指出,Sora所需的算力呈现指数级增长。根据Sora的参数规模推测,其每次训练的算力需求可能达到2.6×10^24Flops,相当于GPT-3175B的8.2倍。目前Sora处于初级阶段,随着技术的不断迭代和优化,其所需的训练数据集规模将进一步扩大,未来算力需求也将显著增加。
此外,这位技术专家还提到,在编解码和框架层面,视频生成模型面临着众多挑战,包括效率问题以及在计算需求不断增加的情况下,是否能够灵活应对日益复杂的需求。
这些因素对视频生成模型构成了巨大的考验,商业化的形势仍不明朗,这使得训练和推理的成本压力更加严峻。
根据界面新闻的了解,目前视频生成模型的应用主要集中在影视制作和电商营销等领域,仍处于概念和实际效果之间的阶段。
快手曾推出由可灵深度参与制作的微短剧《山海奇镜之劈波斩浪》,并与李少红、贾樟柯等知名导演合作,启动了基于视频生成大模型制作的电影短片“可灵AI”导演共创计划,旨在证明视频生成大模型在影视制作中的应用潜力。
然而,《山海奇镜之劈波斩浪》的制作并非完全依赖AI完成,而是使用可灵大模型生成多个时长为5秒的分镜头,最终由后期剪辑团队进行整合。整体成本下降幅度未超过四分之一,远低于外界的预期。
从快手近期的各项举措来看,该公司仍在积极探索可灵AI的更多应用场景。例如,快手试图通过资源和流量支持,促使品牌、制作机构和媒体等需求方与AIGC创作者进行商务合作,以帮助使用可灵AI的创作者实现收益。这在一定程度上反映了AIGC的商业化并不如想象中简单。
在这些挑战面前,视频生成模型领域的一个发展趋势是降低成本。虽然许多公司仍在积极投入视频生成模型,但如何尽可能降低训练和推理成本已经成为普遍关注的方向。
一些公司专注于在预处理过程中统一视频格式、提升数据质量、实现数据标准化、减少数据量以及处理标注信息。抖音的一位视频架构技术负责人表示,超大规模视频训练数据集导致计算和处理成本激增,同时视频样本数据质量不均,以及处理链路复杂,都是增加训练和推理成本的因素。此外,对GPU、CPU、ARM等多种异构计算资源的调度管理也是一大挑战。
界面新闻了解到,豆包视频生成模型自研了多媒体处理框架BMF,以应对模型训练中的算力成本挑战,该方案能够利用大量潮汐资源支持模型训练。
除此之外,部分互联网大厂通过自研芯片在相同视频压缩效率下降低视频大模型的训练和推理成本,而一些AIGC公司则在探索将低质量视频与高质量图像结合,以在保证视频输出画质的同时降低训练模型成本。一旦成本得到有效控制,视频生成模型的未来发展方向将更加明确。