共计 2659 个字符,预计需要花费 7 分钟才能阅读完成。
春节临近,国内的大模型技术迎来了密集的升级。
1月22日,豆包大模型发布了1.5Pro版本,全面增强了其多模态与推理能力。豆包明确表示,在模型训练中并未借助任何其他模型生成的数据,力求做到“无捷径”。在此之前,两天,字节豆包也推出了实时语音大模型。
1月20日上午,MiniMax海螺推出了其语音功能,随后的同日下午,DeepSeek发布了DeepSeek-R1模型。不到一个小时后,月之暗面推出了k1.5多模态思考模型,两家公司均表示新模型的性能与OpenAI的o1正式版相当。
这些更新既追赶OpenAI o1系列的推理能力,也努力缩小与OpenAI实时语音功能的差距。1月21日,腾讯开源了混元3D生成大模型2.0,展现了3D生成大模型在游戏与具身智能等领域的潜力。同一天,百度则开启了“自由画布”应用的公测,百度副总裁王颖向媒体透露,百度文库的AI功能月活跃用户已突破9000万。这些大模型企业年初释放的信号,或许为今年的竞争方向指明了道路。
缩小与OpenAI的距离
一位国内领先大模型公司的研发人员在查看Kimi k1.5与DeepSeek-R1的报告后向第一财经表示,这两个模型的更新在长链思维推理方面与OpenAI的o1系列大致一致,但具体的技术方案可能存在差异,因为OpenAI并没有详细披露o1的实现细节。这类模型的迭代关键在于技术指标的提升,而非单纯的功能开发。
现阶段,并不是所有国内领先的大模型公司都已经赶上o1的能力,但最近推出的两个模型在某些方面已达到o1的水平。月之暗面表示,在long-CoT(长链思维)模式下,Kimi k1.5的数学、代码和多模态推理能力达到了长思考领域的SOTA(最先进技术)模型o1正式版的标准,这是除OpenAI之外的公司首次实现o1正式版的多模态推理性能。Kimi在去年11月发布了k0-math数学模型,12月发布了k1视觉思考模型后,迎来了又一次更新。
DeepSeek则指出,DeepSeek-R1在数学、代码以及自然语言推理等任务中,其表现已经与o1正式版相媲美。该模型的API服务定价为每百万tokens输入1元(缓存命中)、每百万tokens输出16元,远低于o1的定价55元和438元。
相较于闭源的OpenAI o1,这两家大模型公司对新模型的态度较为开放。Kimi首次发布了模型训练技术报告,而DeepSeek-R1在上线API接口的同时也开源了模型权重。从发布时间来看,国内大模型公司与OpenAI的技术差距大约缩短至一个多月。根据时间推算,OpenAI于2024年12月18日推出了正式版o1模型,替代了去年9月发布的预览版o1-preview,目前距离o1正式版发布仅有一个多月。
一些学术界专家认为,新推出的模型代表了行业内的领先水平。加利福尼亚大学伯克利分校的教授Alex Dimakis提到,与他交流的许多AI研究人员对DeepSeek-R1的性能感到惊讶,DeepSeek似乎是能够实现OpenAI最初愿景的“最佳人选”,其他公司需要加倍努力追赶。“我们生活在这样一个时代,一家非美国公司正在延续OpenAI的初衷,致力于真正开放的前沿研究,帮助所有人。DeepSeek-R1可能是第一个展示了强化学习飞轮如何发挥作用并带来持续增长的开源软件项目。”英伟达的高级研究科学家Jim Fan表示。
在发布新模型的同时,月之暗面也透露了未来的迭代方向,表示Kimi将继续升级k系列的强化学习模型,以提供更多模态和领域的能力,并增强其通用性。
在语音领域,OpenAI去年5月发布了能够实时语音交互的4o模型,并在9月向ChatGPT订阅用户开放了高级语音模式。而MiniMax和字节豆包的语音功能上线距离OpenAI的高级语音模式开放仅有近四个月。
探索新路径
1月21日下午,腾讯混元开源了3D生成大模型2.0版本,该模型支持文本生成与图像生成3D的能力,同时推出了3D内容AI创作平台混元3D AI创作引擎。
与OpenAI等大模型公司在大语言模型领域推进长思维链推理和多模态交互的策略不同,3D生成大模型专注于3D资产的生成,面向游戏开发、电商广告、工业制造及具身智能等领域,腾讯等企业正在积极探索这一方向。据悉,混元3D生成能力已应用于腾讯内部的游戏业务,使3D资产的制作时间成本从5-10天大幅缩短至几分钟,同时也应用于腾讯地图的3D导航车标自定义。
未来3D生成大模型的应用范围有望进一步扩大。此前记者获悉,在游戏美术领域,AI生成2D资产的技术已经相对成熟,而3D技术仍需进一步完善。关于AI在游戏领域的实际应用情况,腾讯游戏在研项目的制作人王智刚向记者表示,他负责的项目正在提升AI在制作流程中的使用效率,使用AI辅助后,制作游戏图标的时间已从一两天缩短到几十秒,成本从几百元降至几分钱,目前2D环节的原画创作普遍使用AI生成,3D生成大模型技术也在提升3D资产的制作效率。目前,3D生成大模型技术已能应用于休闲游戏,随着技术的优化,未来在偏写实的游戏项目中也有可能实现应用。
腾讯混元3D的负责人郭春超指出,许多具身智能的机器人团队已找到混元,希望能够获得接口来生成机器人仿真环境中的3D资产,还有一些自动驾驶公司希望利用3D生成大模型来创建数据。
从技术提升空间来看,郭春超认为,业界对大语言模型的Scaling Law(缩放定律)是否已经失效存在讨论,但3D领域离Scaling Law触碰瓶颈还有很远,原因在于3D领域的数据量相对较少,可能仅有千万tokens级别,而文本领域的数据量则在T(千亿)级别,图像则在百亿数量级。
然而,3D生成大模型领域同样面临挑战。郭春超表示,最大的技术挑战在于数据量的不足。从成熟度的角度来看,3D和视频大模型尚未达到充分的发展拐点,仍处于前期阶段。
关于3D大模型技术未来的发展形态,业界存在很大分歧,包括世界模型的定义尚不明确,当前主流流派包括Sora纯视频生成、谷歌Genie 2可交互视频生成、World Lab世界模型等,各种流派各有其优缺点。郭春超表示,关于3D生成大模型下一步的迭代方向,团队一直在进行深入思考,方向可能从生成3D人物或物体延伸到3D场景的生成,但一年后的具体形态,目前尚难预料。
(本文来自第一财经)