共计 1050 个字符,预计需要花费 3 分钟才能阅读完成。
在9月5日那天,我在群聊中浏览新闻时,三次让我的心跳加速。阿里推出了Qwen3-Max-Preview,参数量超过1万亿,这个数字显然不容小觑,听起来就很有分量。
不要以为参数仅仅是个好听的名词。与外界普遍提到的GPT-4几百亿参数相比,1万亿参数的确在数量上形成了巨大的差距。我当时心中暗想,参数就像是肌肉,只有堆积到一定程度才能显现出气势。
接下来,我想聊聊事情的背景。通义千问大约是在去年首次亮相,至今已经经历了2到3个重要版本。我曾造访通义团队的办公室,工程师们告诉我,他们曾多次熬夜加班,逐步将模型扩大。
此次阿里将模型应用于Qwen Chat,并且开放了阿里云API,开发者和企业都能够接入。这意味着,至少有两种方式可以立刻使用,不需要等待太久就能看到实际应用的影子。
从行业的角度来看,这件事情更为有趣。今年的竞争中,至少有六家大型企业参与其中,包括OpenAI和DeepSeek,以及百度、腾讯、字节跳动和科大讯飞。在过去几个月中,这些公司频繁发声,竞争愈发激烈,节奏也相当迅速。
然而,我也想提醒大家,参数的多并不意味着能立刻胜出。模型的优劣,仍需看数据和训练方法。训练一个超大规模模型,成本极为庞大,外界传闻训练费用可能高达数亿美元。资金是否充足,至关重要。
算力则是另一项门槛。训练这样一个拥有1万亿参数的模型,需要数千块高性能的GPU和庞大的数据中心来支撑。阿里拥有阿里云的算力,这让它在推动这些技术时占有一定优势。
但这也提高了行业的门槛。对于创业公司而言,想要开发出同等规模的模型几乎是不可能的。如今的赛道,愈发显得只有少数几家企业能够参与,或许不到十家公司能将赌注压到如此高的水平。
问题的核心依然在于应用。阿里将模型应用于淘宝、天猫、钉钉和阿里云这四个场景,理论上能够直接推动客服、供应链和企业办公的智能化。这些场景多、入口多,能否真正成为日常使用的“好工具”,将决定最终的成败。
我有一个直观的感受。在发布当天,群里有人兴奋得几乎要喊出来,而也有人冷静地问:这个模型真的能解决我的问题吗?如果不能,1万亿参数再多,也不过是技术的炫耀而已。如果能,每天就能替代成千上万次的交互,那就是真正的价值。
我想请教大家一个问题:下次遇到智能客服时,你更关心它“是否能一次性解决问题”还是“回复的速度是否够快”?欢迎在评论区分享你更看重的方面。我认为,1万亿参数既是实力的体现,也是未来的赌注,未来的几年是否会重塑行业格局,我们都要等着时间,在接下来的2到3年里给出答案。