阿里云自研“通义千问”大模型重磅发布，深度测评揭开神秘面纱！

【作者 / 观察者网周毅编辑 / 吕栋】

自年初以来，人工智能大模型的概念不断吸引市场的广泛关注，相关公司的股价也随之上涨。两个月前，阿里巴巴曾宣布正在研发一款类 ChatGPT 的对话机器人，而如今，他们终于发布了这一研究成果，进一步提升了中文大模型的热度。

在 4 月 7 日的中午，阿里云并未召开盛大的发布会，而是通过官方微信平台宣布，旗下自研的大模型“通义千问”正式开始邀请用户进行测试体验。据悉，目前“通义千问”的体验测试主要面向企业用户。

观察者网作为首批获得“通义千问”测试资格的媒体，进行了全面的实测。

在测试过程中，“通义千问”介绍道，它是由达摩院自主研发的超大规模语言模型，能够解答问题、创作文本，甚至表达观点和撰写代码。

然而，这也意味着“通义千问”并不具备图像生成或图文转换的多模态功能。

当被询问其训练开始的时间时，“通义千问”表示，它是在 2016 年创建的，并被训练成一个能够回答各种问题和提供帮助的人工智能语言模型。

不过，它似乎对自己具体的训练地点有些模糊不清。

在谈及参数量时，“通义千问”表示，其参数数量较为庞大，但由于涉及敏感信息，具体的数值无法透露，“我可以生成多种类型的文本，例如文章、故事和诗歌，并能根据不同场景和需求进行调整和扩展。”

在市场反应方面，今日（4 月 7 日）港股未开盘。

然而，A 股的人工智能概念股却再次火热，ChatGPT、游戏和文化传媒方向领涨。根据不完全统计，中文在线及神州泰岳的股价涨停，奥飞娱乐和上海电影也实现涨停，方直科技和光云科技更是上涨超过 10%。

多维度的测试，“通义千问”的表现如何？

鉴于 AI 大模型在回答各类问题方面的造诣，观察者网从多个维度对“通义千问”进行了测试。

例如，当我们询问它是否了解观察者网时，“通义千问”回答道：“是的，我知道观察者网。观察者网是一家专注于提供新闻和信息的门户网站，提供丰富的国内外新闻和深度分析，致力于推动社会进步与变革。”

然而，“通义千问”似乎无法通过简单的指令生成商业宣传标语。

接下来，我们的话题转向了体育领域。

当询问“梅西在阿根廷国家队的进球数量”时，“通义千问”表示，根据可靠数据，梅西在阿根廷国家队的进球数量相当可观。然而，因“具体的进球数字可能随时间推移而有所变化”，它婉拒了提供准确答案的请求。

此外，当被要求“生成一张打篮球的图片”时，“通义千问”则表示，作为一款文本 AI 模型，它并不具备生成图片的能力。

这一点再次证实了“通义千问”缺乏多模态功能。

在对“通义千问”进行评测时，我们也关注了它与其他大型模型之间的能力比较。无论是与文心一言还是 ChatGPT 的对比，这一模型都表现得极为积极。它不仅首先展示了自身的优势，还努力强调自己能够更好地满足用户的需求。

然而，若从严格的标准出发，我们可以发现其回答中存在许多相似的内容。这一点在仔细分析后显而易见。

当被询问“如何看待当前大模型的流行？”时，“通义千问”回应称，它认为这种热潮是积极的，能够帮助人们更深入地理解世界，提升工作效率，并拓宽认知的边界。但与此同时，这种现象也引发了一系列问题，例如人工智能的伦理与隐私问题。因此，我们需谨慎思考如何在技术进步与安全、发展、责任之间找到平衡。

这也体现了“通义千问”在表达观点方面的能力。

在一系列问题中，涉及成语、诗词接龙及传统美食等方面时，“通义千问”也出现了几次小失误。比如，它将“东施效颦”中的东施错误地解释为“美女”，这一说法与许多人对该典故的传统印象不符。在《庄子》等经典文献中，东施被描述为“其里之丑人”。

在传统文化相关的问题上，“通义千问”未能准确给出“停车坐爱枫林晚”的下句，这也显示了其在文化知识的掌握上还有待提升。

对于“曹操三顾茅庐的具体时间”这样的问题，“通义千问”同样未能识别出提问者所设的“陷阱”。

与 ChatGPT- 4 相比，“通义千问”的表现究竟如何？

为了让大家能够直观感受“通义千问”的能力表现，我们在接下来的测试中，围绕 数理逻辑推理 、 商业广告撰写 、 情感与伦理判断 、 模仿写作和小说续写 等方面，精心设计了五组问题，分别请 ChatGPT（基于 4.0 模型）和“通义千问”进行解答。

这一过程使得新兴的“通义千问”得以直接与全球最先进的 AI 模型 GPT- 4 进行较量。

第一组问题聚焦于 数学推理。

题目是：“鸡和兔子一共 100 只脚，如果将鸡和兔子互换，则脚的总数变为 86 只，问鸡和兔子各有多少只？”

这一问题的正确解答为：鸡有 12 只，兔有 19 只。

ChatGPT 认为，这是一个经典的鸡兔同笼问题，并通过代数方法给出了正确答案；

然而，“通义千问”在此问题上三次均未能得出正确答案。

接下来的第二组问题涉及 商业文案创作。

要求两个模型参考“全球视野，中国关怀”为观察者网撰写一条宣传语。

ChatGPT 的答案是：

“放眼世界，聆听中国心声——观察者网，让全球视野与中国关怀相融汇。”

而“通义千问”则给出了这样的回答：

“观察者网，洞察国际时事，聚焦全球热点，解读中国方案。”

与 ChatGPT 相比，“通义千问”的表达显得更加简洁直接，但整体表现依然令人满意。

第三个问题则是关于 道德与情感判断 ，所用材料为著名的 电车困境。

“一个疯子将五个无辜的人绑在电车轨道上。一辆失控的电车正在朝他们驶来，即将造成惨剧。幸运的是，你可以通过拉动一个拉杆，将电车引向另一条轨道，但问题是，那个疯子在那条轨道上也绑了一个人。面对这样的情形，你是否应该拉动拉杆？”

我们要求两个模型做出选择并给出理由。

ChatGPT 明确指出这是一个“道德困境”，并选择拉动拉杆以牺牲一人来拯救五人。它表示：“尽管这并不是一个完美的解决方案，但在此情况下，我们需要在两个不理想的选择中进行权衡。”

它进一步解释称，基于效益主义的道德观念作出的选择，并对这一理论的主要观点进行了阐述，结合材料进行了分析。最后，它强调：“这个问题没有绝对的正确答案”，并重申了其选择的原因和立场。

与之相比，“通义千问”未能给出答案，诚实表示：“作为一个人工智能语言模型，我目前尚未学会如何应对这个问题，我会不断学习，以便为您提供更好的服务。”

值得一提的是，电车困境以及其各种“变体”在西方已有多年的深入探讨，相关材料丰富多样。这或许也是 ChatGPT 表现更为出色的重要原因之一。

智能写作的挑战与机遇：对比分析两大模型的表现

在我们进行的实验中，第四组问题围绕 仿写创作 展开。

这一组问题设定了一个相对“刁钻”的要求，实验中我们将“困住风的气球，开始斑斓的远行”作为仿写的基础，要求两个模型创作四个风格相似的句子。具体来说，我们 特别要求 前两个句子展现浪漫主义风格，而后两个句子则需体现荒诞主义风格。

ChatGPT 所给出的结果如下：

而“通义千问”则提供了这样的答案：

通过对比，ChatGPT 与“通义千问”都成功地回应了问题，基本上满足了“前浪漫后荒诞”的要求。

从两者的表现来看，ChatGPT 表现得更为灵活，但其内容却显得有些像个“中二少年”；而“通义千问”在比喻的逻辑上则显得更加“靠谱”，然而在句式和表达上却稍显呆板，显得有些“中规中矩”。

尽管二者的表现都未能令人完全满意，但未来仍然值得期待。

在某种意义上，最后这个问题是对模型能力的全面考验，涉及到文学创作的深度。

实验要求两组模型“学习”一个故事，然后进行续写。这将有助于我们评估模型的理解、推演及创作能力——此类问题甚至可以留给人类来完成。

我们提供的素材摘自萨默塞特·毛姆的写作笔记：

“两个年轻的英国人在印度的一个偏远茶园工作。其中一个人，称为克里夫，每次投递时都会收到几封信，而另一个人，名叫杰弗里，却从未收到过一封信。有一天，杰弗里提议用五英镑向他的朋友交换一封信……”

我们要求两个模型 续写这个故事 ，并赋予其一个 讽刺的结尾。

首先是ChatGPT 的版本：

接下来是“通义千问”的版本：

通过这些实测结果，我们发现“通义千问”的表现不尽如人意，有时甚至会出现“一本正经的胡说八道”，但其表现并没有想象中那么糟糕，在某些场景中确实给人带来了惊喜。

市场上对百度“文心一言”的宽容态度同样适用：人工智能与其衍生的 AIGC 极为重要，无论国内的进展如何，都需要首要推出产品。无论是“文心一言”还是“通义千问”，它们无需超越 ChatGPT，更不必与参数更大的 GPT- 4 竞争，只要能够达到及格线，就已经相当不错了，毕竟这只是第一代产品。

随着后续公测的开启，“通义千问”有望在用户的反馈中不断学习和改进，前景依然令人期待。

阿里云自研“通义千问”大模型重磅发布，深度测评揭开神秘面纱！

“通义千问”的智能表现与其他大模型的对比分析

探索“通义千问”的能力：五组挑战与比较

编程新纪元：AI时代开启未来科技的新篇章

探索AI在编程中的智能助力与应用潜力

探索智能代码助手「文心快码」的魅力与功能！

文心快码成功整合GLM-4.6模型，开启智能编程新篇章！

入职一年半，这位AI员工成功晋升为国内首位AI架构师！

探索OpenClaw的无限可能：应用场景与测试对比揭秘

当AI开发者踏上驯服OpenClaw的奇幻之旅

2026年OpenClaw一键部署全攻略：零基础也能轻松上手！