共计 2977 个字符,预计需要花费 8 分钟才能阅读完成。

今天,阿里正式推出了其新开发的大型模型,名为 “通义千问”。
对于关注人工智能的朋友而言,几天前推出的天猫精灵版本实际上就是阿里 GPT 的一个 “定制版”。而此次发布的通义千问则代表了阿里 GPT 的“完整版本”。

阿里的这一大模型自称为全球首个参数超过 10 万亿的人工智能系统。此外,阿里还主导建立了“魔搭”,这是国内最大的 AI 模型服务社区,因此市场对阿里 GPT 的期待值较高。
然而, 实际的表现如何,只有通过测试才能揭晓。
为了进行测试,知危编辑部如同之前评测百度的文心一言一样,获得了通义千问的试用账号。接下来,我们将直接进行测试。
首先,我们选择一个大家耳熟能详的“弱智吧问答”问题: 为什么我的父母结婚时没有邀请我参加婚礼?
这是一个常见的问题,之前的测试中,ChatGPT 和百度的文心一言往往将其解释为“父母二婚”,以此来回答。

ChatGPT-3.5 的回答
而通义千问对此则给出了更符合常理的答案:因为在父母结婚时你还未出生。
不过, 百度的文心一言现在也能够用相似的逻辑回答这个问题,我们不能确定这是否是巧合,还是国内厂商根据网友们的调侃对模型进行了“应试教育”。因此,本次测试中,知危编辑部将尽量避免使用市面上广为人知的老问题,或者在问题上进行变化后再提问。
接下来我们测试语义理解的能力:“李四壮差点上上上上海的车”,这句话的意思是什么?
通义千问的回答是:

文心一言的解答为:

ChatGPT(3.5 版本,统一称之为该版本) 的回答如下:

通过这次比较可以看出,ChatGPT 在解析复杂中文句子时,表现欠佳。而通义千问与文心一言则展现了更强的理解能力,并且能够准确阐释思路。
随后,我们继续进行了一项测试,旨在评估带有场景和情感色彩的句子的理解能力:
在七夕节的晚上,我向一位女生表达爱意,询问她是否愿意成为我的女朋友。她的回复是:“笨蛋,我今晚都特意出来见你了,你觉得呢?”请问这位女孩是否接受了我的告白?
通义千问的解答为:

文心一言的解答为:

ChatGPT 的回答是:
在这次测试中,三家机构的表现相对接近。接下来,我们将增加问题的复杂性:
我希望妈妈能给我买一个玩具,她却问我:“你觉得我像玩具吗?”请问她这句话的含义是什么呢?
通义千问对此的解答为:

文心一言对此的回答为:

ChatGPT 的解答为:

在这一轮的测试中,通义千问和文心一言的表现均不理想,而 ChatGPT 则准确理解了问题的本质。通过对前三个问题的分析,可以看出三者的能力各有千秋,后来的通义千问并未逊色于前两者。
接下来,我们将进行逻辑推理与判断能力的测试,先提出一个故意不合逻辑的问题:
为何意大利面要加入 42 号混凝土?通义千问对此的回答是:

文心一言对此的反馈是:
ChatGPT 对此的回答是:

在本次评测中, 通义千问与 ChatGPT 均察觉到问题的“逻辑不合”,而文心一言则将 42 号混凝土描述为“制作意大利面的完美材料”。
接下来是第二个问题:我在街上行走时,一个陌生人突然低声对我说“救救我”,那么可能发生了什么?通义千问对此的解答是:

此外,文心一言的回应是:

而 ChatGPT 的回答则是:

在这轮评测中,通义千问与 ChatGPT 的表现均较为出色,然而文心一言的推理能力却显得不足。接下来是第三个问题:
每个读者心中都有属于自己的哈姆雷特,那么一万个读者心中又会有多少个哈姆雷特呢?在这里我们先卖个关子,先分享文心一言的回答:

最后,ChatGPT 的回应是:
通义千问的解答为:
深度剖析:三大智能问答系统的表现比较
与前两家不同的是,这一家的回答中并没有直接给出数据,这使我们不得不进一步询问。
通义千问的回答令人印象深刻,它不仅准确领会了“每个读者心中都有一个哈姆雷特”这一核心思想,同时还考虑到了“部分人可能会有相同理解”的情形,因此不选择给出明确的数字。
从前三个问题的表现来看,这三家在推理和逻辑能力方面不相上下,然而通义千问似乎展现了更为严谨的思考,能够综合更多的因素进行分析。
接下来,我们将继续探索它们在知识和科技相关问题上的问答能力。
第一个问题是: 如何提升汽车动力电池的能量密度?
通义千问的回应如下:
文心一言则给出了不同的见解:
而 ChatGPT 的回答为:
在这一轮的问答中,三家的表现依然相差无几,文心一言在某些细节上略显不足。接下来的问题是:如果将橙汁添加到牛奶中,会发生什么样的反应?
通义千问对此的解答是:

文心一言的回答如下:

ChatGPT 的回答如下:

在这一轮的问答中,通义千问与 ChatGPT 均描述了混合牛奶的性质变化,而文心一言则未做相关说明。接下来的问题是:未来哪些车型将逐步取代传统燃油车?
通义千问的回答如下:

文心一言对此问题的回答为:

ChatGPT 的回应为:
在对这一问题的分析中,文心一言与 ChatGPT 都明确指出了电动车(EV)作为未来的主要替代选择,而通义千问则显得更为谨慎,提供了多个潜在替代方案,整体而言,三者的回答在水平上接近。
综合考虑前三个问题的回答,我们发现三家均展现出良好的智力水平。通义千问与 ChatGPT 的回答显得更加详细,而判断优劣则可能因个人主观意见而有所不同。
文学与写作能力的较量:三家 AI 的表现
接下来,我们将对三家在文学创作和写作领域的能力进行评测。首先,我们提出的第一道题是:结合“人类”和“机器人”两个元素编写一个恐怖故事。通义千问给出的答案是:
接下来是文心一言的回应:
ChatGPT 的回答如下:
在这轮测试中,我们注意到各家的表现都相对不错。而文心一言的故事则显得尤为出色,情节丰富并设计了精彩的反转。
接着,我们进入第二道题:鲁迅的短篇《孔乙己》传达了怎样的内涵?通义千问对此的解答是:
然而,这个答案显得有些出乎意料, 它将孔乙己描述为在酒肆表演的歌手,这是否意味着训练数据出现了偏差?也许它学习的是某种同人作品 … 文心一言对此的解答是:
而 ChatGPT 的表述则是:
在探讨这个问题时,文心一言在字数上表现得最为简洁,但其表达却极为精准。而通义千问及 ChatGPT 的表现则略显不足。接下来,我们来看第三个问题: 请撰写一篇关于气候变化的简短文章。通义千问的回答是:
文心一言对此问题的回答是:
ChatGPT 的回答则是:
从三者的写作能力来看,它们的整体水平相差无几,通义千问和 ChatGPT 似乎在细节和全面性上表现得相对优秀。
结合前三个问题的结果,我们可以得出,这三者的竞争依然非常激烈。文心一言在偏向人文学科的领域表现稍强,通义千问在报告类文章上略胜一筹,而 ChatGPT 则展现出较好的均衡性。
鉴于篇幅的限制,本文的测试内容到此为止。接下来,我们将对通义千问进行总体评价:
通义千问的表现基本上与 ChatGPT(3.5 版本) 不相上下,或有细微差距,与文心一言的比较也是你来我往。
在回答生成方面,通义千问似乎表现得更加理性、严谨且逻辑性强,尤其在科学知识方面表现突出,而在人文文学领域则略显不足。
当然,它也存在生成的对话 AI 偶尔会出现不准确的回答或虚构事实的通病,但随着公测的推进,用户的反馈可能会促使这些问题逐步得到改正。
值得一提的是,在与通义千问的对话中,我们询问了它的训练起始时间:
那一年,OpenAI 已推出了 GPT- 2 版本。
显然,阿里的通义千问,作为后来者,正快速缩短与 OpenAI 之间的差距。
可以明确地说,在 AI 大模型领域,又一位强劲的竞争者已经崭露头角。