重磅首发:深入实测阿里“通义千问”,AI新秀实力揭晓!

共计 2992 个字符,预计需要花费 8 分钟才能阅读完成。

今日,阿里巴巴正式推出了旗下的新型大模型,名为 “通义千问”。

对于关注人工智能的朋友来说,前几日天猫精灵版本的阿里 GPT 给人留下了深刻印象, 知危编辑部了解到,那实际上是一个“定制版”模型。而此次正式发布的通义千问,则代表了阿里 GPT 的“完整形态”。

阿里的大模型被誉为全球首个突破十万亿参数的人工智能模型,并且阿里领导建立了国内最大的 AI 模型服务社区“魔搭”,因此市场对阿里 GPT 的期待持续高涨。

然而, 实际效果如何,唯有实践才能得出结论。

此次,知危编辑部如同之前对百度文心一言的评测一样,成功获取了通义千问的测试账号,下面将直接开始评测。

首先,我们选择一个大家都感兴趣的“弱智吧问答”问题: 为何父母结婚时没有邀请我参加婚礼?

这个问题很常见,以往的测试中,ChatGPT 和百度的文心一言大多将其理解为“父母是离婚后再婚”,才算答对。

ChatGPT-3.5 的回答

而通义千问对此问题的回答则更贴近日常逻辑:父母在结婚时你尚未出生。

不过, 百度文心一言也能用同样的逻辑解答这个问题,我们无法确定这究竟是巧合,还是国内厂商根据网友的梗进行了“应试教育”。因此,在本次测试中,知危编辑部尽量避免使用市面上流行的老问题,或是经过修改的变体进行提问。

接下来,我们将测试模型的语义理解能力:“李四壮差点上上上上海的车”,这句话有什么含义?

通义千问对此的回应是:

文心一言的答案如下:

ChatGPT(3.5 版本,下同) 的回答为:

根据当前的分析,ChatGPT 在处理复杂的中文句子时显得有些乏力,而通义千问和文心一言则能够准确理解并清晰解释。

接下来,我们检验了对于特定场景及语气的理解能力:

在七夕节的晚上,我向一位女孩表达了我的心意,询问她是否愿意成为我的女朋友。她的回复是:“笨蛋,我今晚都出来见你了,你说呢?”请问,这是否意味着她接受了我的告白?

通义千问对此的解析为:

文心一言的解析为:

ChatGPT 对此的反馈是:

在这一轮测试中,三家模型的表现基本相当。接下来,我们将问题的难度进一步提升:

我请求妈妈为我购买一个玩具,妈妈却反问我:“你认为我像玩具吗?”你觉得妈妈的真实意图是什么呢?

通义千问给出的答案是:

文心一言的回应是:

ChatGPT 的反馈是:

通过对这一轮的结果分析,通义千问和文心一言的表现均不理想,而 ChatGPT 则准确理解了妈妈的意图。综合前面的问题来看,三者间的差异并不明显,后来的通义千问并未逊色于前两者。

接下来,我们会进行逻辑和推理能力的考核,首先提出一个故意不合逻辑的问题:

意大利面为什么要配合 42 号混凝土?通义千问的回答是:

文心一言的回答是:

ChatGPT 的反应是:

在此次测试中, 通义千问与 ChatGPT 都察觉到所提问题存在“逻辑不通”的情况 ,而文心一言则将 42 号混凝土描述为“理想的意大利面烹饪材料”。

接下来的问题是:假设我在大街上,突然一个陌生人小声对我说“救救我”,这种情况可能暗示了什么?通义千问的回应是:

文心一言的反应是:

ChatGPT 的回应是:

在这一轮测试中,通义千问与 ChatGPT 的表现都相对较为出色,而文心一言则明显缺乏推理能力。接下来是第三个问题:

一千个读者眼中有一千个哈姆雷特,那么一万个读者的视角下又会有多少个哈姆雷特呢?对于这个问题,我们先不急着解答,先看看文心一言的回答:

ChatGPT 的反应是:

通义千问的回答是:

评估人工智能的问答能力:通义千问、文心一言与 ChatGPT 的对比

在与前面两家相比时,通义千问并未直接提供具体数字,这引发了我们的进一步询问:

通义千问的回应可谓相当出色。它不仅深入理解了“千人眼中有千个哈姆雷特”的精髓,还在推理过程中考虑到某些人可能会有相似的理解,因此选择不提供一个固定的数字。

综合前三个问题的表现来看,三者在逻辑推理和思维能力方面各有千秋。然而,通义千问似乎更加严谨,能在某些情况下考虑到更多的变量。

接下来,我们将继续探讨涵盖科技与知识领域的问答能力。

第一道题目是: 如何提高汽车动力电池的能量密度?

通义千问的回答如下:

文心一言的解答则是:

至于 ChatGPT,它的回答是:

在这一轮问答中,三者的表现基本处于相同水平,尽管文心一言在某些细节上略显不足。接下来的问题是:将橙汁加入牛奶中会发生怎样的反应?

未来交通的变革:谁将引领电动车时代?

在最近的问答环节中,通义千问与 ChatGPT 都探讨了混合牛奶性质变化的现象,而文心一言则未能给出相关的解答。接下来,第三个问题提出:未来将会有什么样的车辆替代燃油车?

通义千问对此提出了见解:

重磅首发:深入实测阿里“通义千问”,AI 新秀实力揭晓!

接下来,文心一言也提供了自己的看法:

重磅首发:深入实测阿里“通义千问”,AI 新秀实力揭晓!

ChatGPT 也参与到了这个讨论中:

重磅首发:深入实测阿里“通义千问”,AI 新秀实力揭晓!

在此问题的解答中,文心一言和 ChatGPT 均明确指出了电动车(EV)的潜力,而通义千问则以更为谨慎的态度列出了各种可能性,展现出更为严谨的风格。总的来看,这三者的表现不相上下。

综合前三个问题的讨论,可以发现三家平台的智能水平相当高。通义千问与 ChatGPT 的回答似乎更加细致,而对于优劣的判断,恐怕会因个体的主观意见而有所不同。

文学创作能力大比拼:谁能讲述最扣人心弦的故事?

接下来,让我们来评估三家人工智能在文学与写作领域的表现。首先的挑战是:请围绕“人类”和“机器人”这两个元素创作一则恐怖故事。通义千问给出的回复如下:

重磅首发:深入实测阿里“通义千问”,AI 新秀实力揭晓!

接下来是文心一言的创作:

重磅首发:深入实测阿里“通义千问”,AI 新秀实力揭晓!

最后,ChatGPT 的回应是:

重磅首发:深入实测阿里“通义千问”,AI 新秀实力揭晓!

综合来看,三位参与者在这个问题上的表现都算不错。然而,文心一言所创作的故事显得尤为出色,情节紧凑且巧妙设置了反转。

接下来的问题是:鲁迅的短篇《孔乙己》所传达的核心思想是什么?通义千问对此的回答如下:

重磅首发:深入实测阿里“通义千问”,AI 新秀实力揭晓!

这次的回答确实让人感到意外, 它将孔乙己误解为在酒肆中表演的歌手,令人不禁想知道是否是训练数据出现了问题,像是学习了某种同人文。 接下来是文心一言的答案:

重磅首发:深入实测阿里“通义千问”,AI 新秀实力揭晓!

接下来的则是 ChatGPT 的见解:

重磅首发:深入实测阿里“通义千问”,AI 新秀实力揭晓!

这一系列的回答不仅展现了各家在文学理解上的差异,同时也引发了我们对人工智能学习与表现的深思。

通义千问:AI 写作能力的新秀

在对比不同 AI 助手的表现时,文心一言在字数上最为简洁,但其表达却极为精准。相较而言,通义千问与 ChatGPT 的表现则显得略逊一筹。接下来,我们探讨第三个问题: 请撰写一篇关于气候变化的简短文章。

关于这个问题,文心一言的回复是:

而 ChatGPT 则作出了如下回答:

这三款 AI 的写作水平大致相当,但通义千问与 ChatGPT 在细致与全面性上稍显优势。

综合前三个问题来看,这三者依然在竞争中不相上下。文心一言似乎在偏向人文文学的领域表现得更为出色,而通义千问则在撰写报告类文章时略占上风,ChatGPT 则展现了较为均衡的能力。

鉴于篇幅限制,本文的测试就此结束,接下来我们将对通义千问作出整体评价:

通义千问的表现基本与 ChatGPT(3.5 版本) 相当,甚至略显瑕疵,而与文心一言的比较则可以说是各有千秋。

通义千问在回答生成时,似乎更倾向于严谨、理智,逻辑性强,尤其在科学知识的处理上表现突出,但在人文文学方面仍有不足之处。

当然,它也存在生成式对话 AI 普遍的缺点,偶尔会出现不准确的叙述。不过,随着公测的进行,这些问题应该会得到改善。

值得一提的是,我们在与通义千问的对话中询问了其训练开始的时间:

那一年,OpenAI 已经推出了 GPT- 2 版本。

作为后起之秀,阿里的通义千问正在迅速缩小与 OpenAI 之间的差距。

可以确认的是,AI 大模型领域又一位实力强劲的竞争者正在崭露头角。

正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-09-21发表,共计2992字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
评论(没有评论)
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!