重磅首发：深入实测阿里“通义千问”，AI新秀实力揭晓！

今日，阿里巴巴正式推出了旗下的新型大模型，名为 “通义千问”。

对于关注人工智能的朋友来说，前几日天猫精灵版本的阿里 GPT 给人留下了深刻印象， 知危编辑部了解到，那实际上是一个“定制版”模型。而此次正式发布的通义千问，则代表了阿里 GPT 的“完整形态”。

阿里的大模型被誉为全球首个突破十万亿参数的人工智能模型，并且阿里领导建立了国内最大的 AI 模型服务社区“魔搭”，因此市场对阿里 GPT 的期待持续高涨。

然而， 实际效果如何，唯有实践才能得出结论。

此次，知危编辑部如同之前对百度文心一言的评测一样，成功获取了通义千问的测试账号，下面将直接开始评测。

首先，我们选择一个大家都感兴趣的“弱智吧问答”问题：为何父母结婚时没有邀请我参加婚礼？

这个问题很常见，以往的测试中，ChatGPT 和百度的文心一言大多将其理解为“父母是离婚后再婚”，才算答对。

ChatGPT-3.5 的回答

而通义千问对此问题的回答则更贴近日常逻辑：父母在结婚时你尚未出生。

不过，百度文心一言也能用同样的逻辑解答这个问题，我们无法确定这究竟是巧合，还是国内厂商根据网友的梗进行了“应试教育”。因此，在本次测试中，知危编辑部尽量避免使用市面上流行的老问题，或是经过修改的变体进行提问。

接下来，我们将测试模型的语义理解能力：“李四壮差点上上上上海的车”，这句话有什么含义？

通义千问对此的回应是：

文心一言的答案如下：

ChatGPT（3.5 版本，下同）的回答为：

根据当前的分析，ChatGPT 在处理复杂的中文句子时显得有些乏力，而通义千问和文心一言则能够准确理解并清晰解释。

接下来，我们检验了对于特定场景及语气的理解能力：

在七夕节的晚上，我向一位女孩表达了我的心意，询问她是否愿意成为我的女朋友。她的回复是：“笨蛋，我今晚都出来见你了，你说呢？”请问，这是否意味着她接受了我的告白？

通义千问对此的解析为：

文心一言的解析为：

ChatGPT 对此的反馈是：

在这一轮测试中，三家模型的表现基本相当。接下来，我们将问题的难度进一步提升：

我请求妈妈为我购买一个玩具，妈妈却反问我：“你认为我像玩具吗？”你觉得妈妈的真实意图是什么呢？

通义千问给出的答案是：

文心一言的回应是：

ChatGPT 的反馈是：

通过对这一轮的结果分析，通义千问和文心一言的表现均不理想，而 ChatGPT 则准确理解了妈妈的意图。综合前面的问题来看，三者间的差异并不明显，后来的通义千问并未逊色于前两者。

接下来，我们会进行逻辑和推理能力的考核，首先提出一个故意不合逻辑的问题：

意大利面为什么要配合 42 号混凝土？通义千问的回答是：

文心一言的回答是：

ChatGPT 的反应是：

在此次测试中， 通义千问与 ChatGPT 都察觉到所提问题存在“逻辑不通”的情况 ，而文心一言则将 42 号混凝土描述为“理想的意大利面烹饪材料”。

接下来的问题是：假设我在大街上，突然一个陌生人小声对我说“救救我”，这种情况可能暗示了什么？通义千问的回应是：

文心一言的反应是：

ChatGPT 的回应是：

在这一轮测试中，通义千问与 ChatGPT 的表现都相对较为出色，而文心一言则明显缺乏推理能力。接下来是第三个问题：

一千个读者眼中有一千个哈姆雷特，那么一万个读者的视角下又会有多少个哈姆雷特呢？对于这个问题，我们先不急着解答，先看看文心一言的回答：

ChatGPT 的反应是：

通义千问的回答是：

在与前面两家相比时，通义千问并未直接提供具体数字，这引发了我们的进一步询问：

通义千问的回应可谓相当出色。它不仅深入理解了“千人眼中有千个哈姆雷特”的精髓，还在推理过程中考虑到某些人可能会有相似的理解，因此选择不提供一个固定的数字。

综合前三个问题的表现来看，三者在逻辑推理和思维能力方面各有千秋。然而，通义千问似乎更加严谨，能在某些情况下考虑到更多的变量。

接下来，我们将继续探讨涵盖科技与知识领域的问答能力。

第一道题目是：如何提高汽车动力电池的能量密度?

通义千问的回答如下：

文心一言的解答则是：

至于 ChatGPT，它的回答是：

在这一轮问答中，三者的表现基本处于相同水平，尽管文心一言在某些细节上略显不足。接下来的问题是：将橙汁加入牛奶中会发生怎样的反应？

在最近的问答环节中，通义千问与 ChatGPT 都探讨了混合牛奶性质变化的现象，而文心一言则未能给出相关的解答。接下来，第三个问题提出：未来将会有什么样的车辆替代燃油车？

通义千问对此提出了见解：

接下来，文心一言也提供了自己的看法：

ChatGPT 也参与到了这个讨论中：

在此问题的解答中，文心一言和 ChatGPT 均明确指出了电动车（EV）的潜力，而通义千问则以更为谨慎的态度列出了各种可能性，展现出更为严谨的风格。总的来看，这三者的表现不相上下。

综合前三个问题的讨论，可以发现三家平台的智能水平相当高。通义千问与 ChatGPT 的回答似乎更加细致，而对于优劣的判断，恐怕会因个体的主观意见而有所不同。

接下来，让我们来评估三家人工智能在文学与写作领域的表现。首先的挑战是：请围绕“人类”和“机器人”这两个元素创作一则恐怖故事。通义千问给出的回复如下：

接下来是文心一言的创作：

最后，ChatGPT 的回应是：

综合来看，三位参与者在这个问题上的表现都算不错。然而，文心一言所创作的故事显得尤为出色，情节紧凑且巧妙设置了反转。

接下来的问题是：鲁迅的短篇《孔乙己》所传达的核心思想是什么？通义千问对此的回答如下：

这次的回答确实让人感到意外， 它将孔乙己误解为在酒肆中表演的歌手，令人不禁想知道是否是训练数据出现了问题，像是学习了某种同人文。 接下来是文心一言的答案：

接下来的则是 ChatGPT 的见解：

这一系列的回答不仅展现了各家在文学理解上的差异，同时也引发了我们对人工智能学习与表现的深思。

在对比不同 AI 助手的表现时，文心一言在字数上最为简洁，但其表达却极为精准。相较而言，通义千问与 ChatGPT 的表现则显得略逊一筹。接下来，我们探讨第三个问题：请撰写一篇关于气候变化的简短文章。

关于这个问题，文心一言的回复是：

而 ChatGPT 则作出了如下回答：

这三款 AI 的写作水平大致相当，但通义千问与 ChatGPT 在细致与全面性上稍显优势。

综合前三个问题来看，这三者依然在竞争中不相上下。文心一言似乎在偏向人文文学的领域表现得更为出色，而通义千问则在撰写报告类文章时略占上风，ChatGPT 则展现了较为均衡的能力。

鉴于篇幅限制，本文的测试就此结束，接下来我们将对通义千问作出整体评价：

通义千问的表现基本与 ChatGPT（3.5 版本）相当，甚至略显瑕疵，而与文心一言的比较则可以说是各有千秋。

通义千问在回答生成时，似乎更倾向于严谨、理智，逻辑性强，尤其在科学知识的处理上表现突出，但在人文文学方面仍有不足之处。

当然，它也存在生成式对话 AI 普遍的缺点，偶尔会出现不准确的叙述。不过，随着公测的进行，这些问题应该会得到改善。

值得一提的是，我们在与通义千问的对话中询问了其训练开始的时间：

那一年，OpenAI 已经推出了 GPT- 2 版本。

作为后起之秀，阿里的通义千问正在迅速缩小与 OpenAI 之间的差距。

可以确认的是，AI 大模型领域又一位实力强劲的竞争者正在崭露头角。

重磅首发：深入实测阿里“通义千问”，AI新秀实力揭晓！

评估人工智能的问答能力：通义千问、文心一言与 ChatGPT 的对比

未来交通的变革：谁将引领电动车时代？

文学创作能力大比拼：谁能讲述最扣人心弦的故事？

通义千问：AI 写作能力的新秀

《OpenClaw本地安装全攻略：适配Windows（WSL2）、macOS与Linux的多种部署方式与环境要求解析》

深入解析Trae 2.0发布及其全新SOLO模式的用户体验！

字节推出AI IDE工具Trae，能否超越Cursor？产品实力与用户体验深入分析！

轻松搭建 AI 助手：保姆级 OpenClaw（原 Clawdbot）飞书对接全攻略

字节的Trae：更像一个懂你的朋友而非传统IDE

字节跳动技术副总裁与Trae合作首度开源项目，如何看待当前AI开发的进展？

编程新纪元：AI时代开启未来科技的新篇章

新手程序员在使用Trae时可能遇到的挑战解析 – Charlie Tsai 的深入分享