字节豆包如何应对AI视频降本挑战？压力究竟落在谁的肩上？

没有评论

共计 2437 个字符，预计需要花费 7 分钟才能阅读完成。

每经记者：杨昕怡每经编辑：魏官红

自从Sora的出现开启了AI视频的新篇章后，国内外众多企业纷纷加入这一领域的竞争。然而，在迎接这一更加互动、沉浸的视频新时代时，如何有效应对成本、质量与性能的挑战呢？

在10月15日举行的视频云技术大会上，火山引擎与英特尔联合推出了大模型训练视频预处理方案。《每日经济新闻》的记者在现场获悉，该技术目前已在豆包视频生成模型中得到应用。

发布会上，Bytedance Research的负责人李航提到，豆包视频生成模型PixelDance在训练时使用了火山引擎的大模型训练视频预处理方案，充分利用了丰富的潮汐资源，为模型的训练提供了强有力的支持。

另外，抖音集团视频架构的负责人王悦则透露了字节自研视频编解码芯片的最新进展：经过抖音集团内部的实践验证，该芯片在实现相同视频压缩效率的情况下，成本降低超过95%。

“首先，超大规模的视频训练数据集导致了计算和处理成本的显著增加。”王悦指出，大模型厂商在预处理环节面临着许多挑战，“其次是视频样本数据的质量参差不齐，处理链路环节复杂，最后还需有效调度GPU、CPU、ARM等多种异构算力资源。”

图片

在9月24日的火山引擎AI创新巡展上，豆包视频生成-PixelDance和豆包视频生成-Seaweed两款大模型同步发布，吸引了行业内外人士的广泛关注。实际上，字节跳动在视频生成模型的研发上投入了大量精力。

10月15日，火山引擎推出的大模型训练视频预处理方案，旨在解决视频大模型训练在成本、质量及性能等方面的技术难题。

据悉，对训练视频进行预处理是确保大模型训练效果的重要基础。此过程可以统一视频数据格式、提升数据质量、实现数据标准化、减少数据量及处理标注信息，从而使模型更加高效地学习视频中的特征和知识，显著提升训练效果和效率。

在视频生成模型的训练过程中，算力成本无疑是最大的挑战之一。

一位国内视频生成模型的算法工程师在接受《每日经济新闻》采访时指出，尽管有高质量的数据，但视频模型的训练难度往往高于大语言模型，对算力的需求也更大。“目前已知的开源视频模型数量不多，很多视频模型仍处于如何有效利用数据的阶段，而高质量的数据来源也相对匮乏。”

计算机科学家Matthias Plappert的研究表明，Sora在训练过程中对算力规模的要求极高，训练环节大约需要在4200到10500张NVIDIA H100上持续一个月，而当模型进入推理阶段后，计算成本将迅速超出训练成本。

为了解决降低成本的问题，火山引擎借助英特尔的CPU等资源，将大模型训练视频预处理方案建立在自主研发的多媒体处理框架之上。王悦表示，该方案还在算法和工程方面进行了优化，能够对海量视频数据进行高质量的预处理，在短时间内实现处理链路的高效协同，提升模型训练的效率。

关于该方案的实际应用，李航在发布会上透露，豆包视频生成模型PixelDance在训练过程中已采用了这一方案。同时，火山引擎视频云团队提供的点播解决方案，为PixelDance生成的视频提供了从编辑、上传到转码、分发和播放的全生命周期一站式服务，确保了模型的商业化应用。

此外，在此次发布会上，火山引擎还推出了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案及AIG3D与大场景重建方案，全面融入AI能力，覆盖视频的生产、交互和消费各个环节。

AI正在全面改变人们生产、传播和接受信息的方式。在这一过程中，层出不穷的视频新技术使人们从流畅清晰的数据世界迈入了更智能、更具交互体验的AI领域。

今年7月，商汤科技推出了首个面向C端用户的可控人物视频生成大模型Vimi；8月，“AI六小龙”之一的MiniMax发布了视频生成模型video-1；9月，可灵AI完成第9次迭代，推出“可灵1.5模型”，阿里云在云栖大会上也发布了全新的视频生成模型，字节则推出了两款视频生成模型……AI视频产品的发布和迭代几乎以月为单位进行。

对于AI视频产品的快速崛起，北京市社会科学院副研究员王鹏在接受《每日经济新闻》采访时分析称，国内AI视频产品正在快速发展并不断迭代，主要因为市场需求旺盛、应用场景广泛以及商业模式多样等因素。

目前，市场上AI视频产品的实际应用大多集中在影视、电商营销等领域。例如，今年7月，即梦AI与博纳影业合作推出了全国首部AIGC生成式连续性叙事科幻短剧集《三星堆：未来启示录》；而在9月，快手联合知名导演贾樟柯、李少红等启动了“可灵AI”导演共创计划。

与此同时，工信部信息通信经济专家委员会委员盘和林向《每日经济新闻》记者指出，当前部分AI视频产品仍处于导入期，由于技术或合规性，难以在市场上广泛推广。“目前开源AI视频产品的受欢迎程度高于闭源产品，因为AI视频生成的成本较高，视频制作方往往资金不足，因此利用开源的、下载到终端的AI算法能更有效地制作视频。”

他认为，目前AI视频产品面临的主要障碍主要包括算力和合规风险。“在算法、算力和数据方面，企业需要投入大量的资源和时间；另一个难点则在于合规风险，随着隐私问题日益受到关注，合规已成为不可回避的话题，而某些AI视频产品可能会侵犯个人隐私。”

此外，易观分析研究合伙人陈晨在接受《每日经济新闻》采访时对视频生成大模型的短期营收能力表示担忧，“由于AI大模型的训练与推理成本高，加之C端用户对AI工具的需求相对分散，付费意愿不足，视频大模型在C端市场的商业化仍需较长时间的培育。”

AI视频时代已经来临，但这条道路注定是充满挑战的长途旅程，如何在降低成本、提升效率的同时，夺取更大的市场份额，将成为互联网巨头和科技企业面临的永恒课题。

每日经济新闻

来源：今日头条

原文标题：字节豆包直面 AI 视频降本难题，压力给到了谁？– 今日头条

原文链接：https://toutiao.com/group/7426377636521214501/

正文完