共计 1274 个字符,预计需要花费 4 分钟才能阅读完成。
当前,中国的开源模型如 Qwen 和 DeepSeek 在全球舞台上大放异彩,其开放的姿态让先进的模型参数权重、推理逻辑以及工具链条完全开源,正在为人工智能商业化开辟新的局面,并推动全球大模型的开源进程。
在 4 月 28 日的媒体采访中,清华大学人工智能研究院常务副院长、欧洲科学院外籍院士孙茂松指出,中国科技公司在大模型领域掀起的开源热潮,向世界传达了中国的“强音”。这一技术不仅获得了国际的认可,更在悄然改变全球大模型的文化格局。
中国的大模型领域已经形成了开源的热潮。孙茂松提到,近年来在人工智能,特别是大模型的发展领域,中国的声音愈发响亮,DeepSeek 的推出以及通义千问系列开源产品极大地推动了国际大模型的开源进程。这对于打破技术垄断、促进技术平等、提升人工智能的普惠性,显然具有重要的意义。
图片
然而,孙茂松也坦言,英语及其文化在国际学术界长期占据主导地位,中文内容往往处于劣势。他指出:“要获得国际认可,你必须超越对手,表现得更为出色。”
他进一步表示,在同等条件下,国际上通常更倾向于使用西方开源的基础模型,而不太会选择中国开发的模型。这种由“文化差异”带来的环境挑战,需要付出额外的技术努力来克服。
不过,过去一年这一局面已有明显改善。他提到:“近年来,国际开源界较为知名的模型是 LLaMA(Meta 公司旗下的人工智能模型),但从去年开始,千问的表现已超越了它。”
从学术论文的角度来看,很多国际研究现已基于千问展开。在同样尺寸的模型对比中,某些在 LLaMA 上无法实现的效果,阿里千问却能够做到,这充分证明了千问在小模型上的优越性能。
从这一典型案例来看,孙茂松认为中国的大模型的“文化”在国际上获得了认可,这在某种程度上意味着文化层面的转变。虽然表面上看似平静,但实际上这一变化极为珍贵,彰显出国际社会对中国大模型技术水平的认可。
最新消息指出,4 月 29 日凌晨,新一代通义千问模型 Qwen3(千问 3)正式开源,共有 8 款不同尺寸的千问 3 模型。阿里通义目前已开源超过 200 个模型,全球下载量已超过 3 亿次,衍生模型数量超 10 万个,超越美国的 Llama,成为全球首个开源模型。
孙茂松还特别强调了小模型的价值。从应用角度看,小模型能够降低成本,扩大应用的普及度;从研究角度看,它们有助于高校和科研机构应对资源限制带来的挑战,显得十分必要。
他认为,优秀的大模型会衍生出更为出色的小模型,而对小模型的深入研究同样能为大模型的发展带来重要的启示。
“我一直强调基础模型的灵性,换句话说,它们需要具备一定的智慧。”孙茂松进一步指出,灵活的基础模型就如同一个聪慧的人,经过简单的启发便能领悟,只有具备灵性,基础模型才能更顺畅地实现更高层次的学习与应用。
展望未来,孙茂松认为,中国的人工智能领域将在更高层次面临能力的严峻考验。“当你追赶上并肩而立时,下一步的方向在哪里?”这促使我们在基础研究上提出更深刻的学术思想与根本性的解决方案。他强调,中国必须在保持关键技术创新的同时,更加注重“从 0 到 1”的原创思想的培养与激发。
(本文来源于澎湃新闻,更多原创资讯请下载“澎湃新闻”APP)