共计 2335 个字符,预计需要花费 6 分钟才能阅读完成。

国内大模型更新潮涌动,逐步缩小与OpenAI的差距
春节前夕,国内的大模型市场迎来了频繁的更新潮。
1月22日,豆包推出了其1.5Pro版本,全面增强了其在多模态和推理方面的能力。豆包明确表示,在训练过程中并未使用其他模型生成的数据,强调不走捷径。就在两天前,字节豆包也发布了实时语音大模型。
1月20日,MiniMax海螺上线了语音功能。同日晚上,DeepSeek发布了DeepSeek-R1模型,紧接着月之暗面Kimi也推出了k1.5多模态思考模型。两家企业均表示新模型的性能已与OpenAI的o1正式版相当。
这些更新不仅是为了追赶OpenAI的o1系列推理模型,同时也在追逐其实时语音功能。1月21日,腾讯开源了混元3D生成大模型2.0,聚焦于游戏和具身智能等领域的应用。同时,百度开启了“自由画布”应用的公测,副总裁王颖透露,百度文库的AI功能月活跃用户已突破9000万。这些动态显示了各大模型企业对未来竞争方向的清晰展望。
接近OpenAI的技术前沿
一位来自国内顶尖大模型厂商的研发人员在查看了Kimi k1.5与DeepSeek-R1的技术报告后告诉记者,这两个模型的更新与OpenAI o1系列在长链推理方面的目标相似,但在技术方案上可能存在差异,因为OpenAI并未详细公开其具体实现。这类模型的升级核心在于提升技术指标,而非单纯的功能开发。
目前,并非所有国内顶尖大模型厂商的能力都能与o1匹敌,但最新的两个模型在某些性能上已逐步接近o1。月之暗面表示,Kimi k1.5在long-CoT(长链思维)模式下,其数学、代码和多模态推理能力达到了o1正式版的水平,这也是除OpenAI以外的公司首次实现o1的多模态推理性能。Kimi系列在去年11月发布了k0-math数学模型,12月推出了k1视觉思考模型,如今再度更新。
DeepSeek同样表示,DeepSeek-R1在数学、代码和自然语言推理等任务上与o1正式版表现相仿,其API服务定价也极具竞争力,每百万tokens输入仅需1元,而输出则为16元,远低于o1的定价。
相较于OpenAI的闭源策略,这两家大模型公司对于新模型的态度更加开放。Kimi首次公布了模型训练技术报告,而DeepSeek-R1在上线API接口时也开源了模型权重。从发布时间来看,国内大模型公司与OpenAI的技术差距可能缩短至一个多月。OpenAI于2024年12月18日推出了正式版o1模型,取代了去年9月发布的预览版o1-preview。
一些学术界专家认为,这些新发布的模型代表了行业的先进水平。加州大学伯克利分校的教授Alex Dimakis表示,许多与他交流的AI研究人员对DeepSeek-R1的性能感到震惊,并认为DeepSeek是最有潜力实现OpenAI初衷的公司。“我们正处于一个时代,一家非美国公司正在延续OpenAI的使命,即推动真正开放的前沿研究,赋能所有人。”英伟达的高级研究科学家Jim Fan也表达了类似观点。
在发布新模型的同时,月之暗面透露了未来的迭代计划,表示Kimi将继续增强k系列强化学习模型,以提供更多模态和更强的通用能力。
探索新方向
1月21日下午,腾讯混元开源了3D生成大模型2.0版本,支持文生和图生3D的能力,同时推出了混元3D AI创作引擎。
与OpenAI等企业在大语言模型领域推进长思维链推理和多模态交互的方向不同,3D生成大模型专注于3D资产的生成,适用于游戏制作、电商广告、工业制造和具身智能等领域。腾讯等公司正在积极探索这一领域。据介绍,混元3D生成能力已在腾讯内部的游戏业务中应用,将3D资产制作的时间成本从5至10天缩短至几分钟,同时也用于腾讯地图的3D导航车标自定义。
未来,3D生成大模型的应用可能还将扩展。记者了解到,游戏美术领域的AI生成2D资产技术已相对成熟,而3D技术仍需进一步发展。腾讯游戏在研项目的制作人王智刚表示,他负责的项目正在提升AI在制作流程中的应用,使用AI辅助后,制作一个游戏图标的时间已从一两天缩短至几十秒,成本从几百元降至几分钱。目前,2D环节的原画大多采用AI生成,3D生成大模型技术也在提升3D资产的制作效率。王智刚预测,随着技术优化,该技术在偏写实的游戏项目中的应用将变得可行。
腾讯混元3D的负责人郭春超指出,多个具身智能机器人团队已与混元合作,希望获取接口来生成机器人仿真环境中的3D资产,一些自动驾驶公司也希望利用3D生成大模型来生成数据。
从技术发展的潜力来看,郭春超提到,业界对大语言模型Scaling Law(缩放定律)失效的讨论愈演愈烈,但3D领域与Scaling Law的接触天花板仍有较大余地,原因在于3D领域的数据量相对较少,仅在千万tokens级别,而文本领域的数据则在T(千亿)级别,图像数据则在百亿量级。
然而,3D生成大模型领域也面临挑战。郭春超表示,最大的技术难题是数据量的不足。从成熟度来看,3D和视频大模型尚未达到充分的拐点,仍处于发展的早期阶段。
关于3D大模型技术发展的最终形态,业内存在诸多分歧,包括世界模型的定义仍不明确。目前主流的流派包括Sora纯视频生成、谷歌Genie 2可交互视频生成及World Lab等,各种流派各有其优缺点。郭春超表示,团队正在思考3D生成大模型的下一步迭代方向,考虑从生成3D人物或物体延伸到生成3D场景等,但未来一年具体的形态仍难以预测。
欢迎转发,但请注明出处“上海经信委”
觉得不错请点赞!