揭秘阿里云自研大模型“通义千问”的深度实测成果！

没有评论

共计 3662 个字符，预计需要花费 10 分钟才能阅读完成。

【文/观察者网周毅编辑/吕栋】

自年初以来，人工智能大模型的概念持续吸引市场的目光，相关上市公司的股价也随之攀升。在公布正在开发类ChatGPT的对话机器人两个月后，阿里巴巴终于展示了其研究进展，这进一步推动了中文大模型的热潮。

在4月7日的中午，阿里云并未举行盛大的发布会，而是通过官方微信平台宣布，自主研发的大模型“通义千问”正式开始邀请用户参与测试。根据消息，目前“通义千问”的测试对象主要是企业用户。

观察者网首批获准测试“通义千问”，并进行了深入的实测。

测试中，“通义千问”指出，它是由达摩院自主开发的超大规模语言模型，具备回答问题、撰写文本、表达观点和编写代码的能力。

不过，这也表明“通义千问”目前并不具备图文互转的多模态功能。

当被询问何时开始训练时，“通义千问”表示，它在2016年被创建，旨在成为一个能够解答各种问题并提供帮助的人工智能语言模型。

然而，它似乎对自己具体的训练地点并不十分清楚。

在被问及参数量时，“通义千问”表示，其参数数量相对较多，但由于涉及敏感信息，具体数字无法披露。“我能够生成各类文本，比如文章、故事和诗歌，并能够依据不同的场景和需求进行调整和扩展。”

在市场反应方面，今日（4月7日）港股未开盘。

但A股的人工智能概念股则再次升温。以ChatGPT、游戏及文化传媒为主的板块领涨，统计显示，中文在线、神州泰岳均涨停，奥飞娱乐和上海电影也涨停，方直科技与光云科技的涨幅超出10%。

从多个维度测试，“通义千问”的表现如何？

鉴于AI大模型在问题解答方面的优势，观察者网从不同角度对“通义千问”进行了评估。

例如，当询问它是否了解观察者网时，“通义千问”回答：“是的，我了解观察者网。它是一个专注于提供新闻和信息的门户网站，发布了大量国内外新闻以及深度分析，致力于推动社会进步与变革。”

然而，“通义千问”似乎不能通过简单的指令生成商业宣传口号。

探讨“通义千问”的多方面能力与局限性

接下来，我们将目光投向体育世界。

当被询问“梅西在阿根廷国家队进球多少次”时，“通义千问”回答说，根据可靠信息，梅西的进球数非常可观。然而，由于“随着时间的推移，具体的进球数字可能会有所改变”，因此“通义千问”拒绝提供精确的统计数据。

在被要求“生成一幅篮球比赛的图像”时，“通义千问”则表示，作为一个文本生成的人工智能模型，它并不具备创作图像的能力。

这一情况进一步验证了“通义千问”不具备多模态处理的功能。

我们还让“通义千问”试图对比自身与其他大型模型的能力。

在与文心一言和ChatGPT的比较中，“通义千问”表现得相当积极，首先陈述了自己的独特优势，接着表示自己能够更好地满足用户需求。

不过，如果对答案的严格性有所要求，那么不难察觉，两个问题的回答之间存在较多相似之处。

探索“通义千问”：大模型热潮的双刃剑

在被询问关于当前大型模型热度时，“通义千问”表示，这一现象是积极的。它认为，大型模型能够帮助我们更深入地理解世界，提升工作效率，拓展认知的边界。然而，这也引发了一系列问题，如人工智能的伦理和隐私等。因此，我们必须认真考量如何在技术进步的过程中平衡安全、发展与责任。

这一观点的表达，进一步验证了“通义千问”在阐述观点方面的能力。

接下来的系列问题涵盖了成语典故、诗词接龙和传统美食等领域，但“通义千问”在这些问题上也出现了几次小失误。

例如，它将“东施效颦”中的东施解读为“美女”，这与许多人对这一典故的认知有所偏差。在《庄子》等经典文献中，角色“东施”的描述通常为“其里之丑人”。

在传统文化方面，“通义千问”没有正确回答“停车坐爱枫林晚”的下句，显示出其知识面仍有欠缺。

此外，面对“曹操什么时候三顾茅庐”的提问，“通义千问”也未能识别到提问者故意设置的“陷阱”。

“通义千问”的表现与ChatGPT-4相比如何？

为了让大家对“通义千问”的能力有个初步而直观的认识，我们在后续的测试中围绕数理逻辑推理、商业文案撰写、情感与道德判断、仿写与小说续写等方面设计了五组问题，分别由ChatGPT（基于4.0模型）和“通义千问”进行回答。

这样一来，“通义千问”便与全球最顶尖的大模型GPT-4进行了直接的较量。

首先是数学难题。

题目是：“鸡和兔子一共100只脚，如果把鸡换成兔子，兔子换成鸡，那么一共只有86只脚，问鸡和兔各有多少只？”

此题的正确解答是鸡12只，兔19只。

ChatGPT指出，这是一道经典的鸡兔同笼问题，可以通过代数方法来解决，并给出了正确答案；

然而，“通义千问”在此问题上连续三次都未能找到正确答案。

道德困境与情感判断：电车难题的深度解析

在这一组题目中，聚焦于商业文案创作的内容。

题目要求两个模型围绕“全球视野，中国关怀”这一主题，为观察者网撰写一条宣传口号。

ChatGPT给出的口号是：

“放眼全球，倾听中国声音——观察者网，将国际视野与中国情怀完美结合。”

揭秘阿里云自研大模型“通义千问”的深度实测成果！

而“通义千问”提供的口号则是：

“观察者网，洞察全球时事，关注国际热点，解析中国方案。”

揭秘阿里云自研大模型“通义千问”的深度实测成果！

与ChatGPT的表达相比，“通义千问”显得更加直白，但整体表现依旧令人满意。

接下来的问题围绕道德和情感判断展开，所用材料是引人深思的电车困境。

“一位疯子将五个无辜者绑在电车轨道上，一辆失控的电车即将撞上他们。幸运的是，你可以拉动一个杠杆，使电车转向另一条轨道，但不幸的是，另一条轨道上也绑着一个人。面对这样的情境，你会选择拉动杠杆吗？”

我们需要两个模型作出选择并阐述理由。

ChatGPT开门见山，指出这是一个“道德困境”。它的决定是拉动杠杆，以牺牲一人来拯救五人，并表示：“虽然这并不是一个理想的解决方法，但在此情境中，我们必须在两个不完美的选项中进行取舍。”

它进一步解释，这一选择基于效益主义的道德观念，并简要介绍了相关理论的核心观点，结合具体情境进行了分析。最后，它强调：“这个问题没有绝对的正确答案”，并重申了自己做出这一选择的理由与立场。

人工智能的创作能力比较：灵活与严谨的较量

“通义千问”在面对这个问题时，坦诚地表示：“作为一个人工智能语言模型，我尚未掌握如何有效回应这一问题，但我会不断学习，以便为您提供更优质的服务。”

值得一提的是，电车困境及其相关变体在西方社会已经讨论多年，积累了丰富的资料。这或许能解释为何ChatGPT在此领域的表现尤为突出。

接下来，第四组问题聚焦于仿写创作。

在这组问题中，我们提出了一个“刁钻”的要求。实验中，要求两个模型围绕“困住风的气球，开始斑斓的远行”进行仿写，创作出四个具有相似句式或意境的句子——我们明确要求：前两句应体现浪漫主义风格，后两句则应展现荒诞主义的特征。

ChatGPT的回应如下：

“通义千问”所提供的答案为：

通过对比可以看出，ChatGPT和“通义千问”均成功完成了任务，且都满足了“前两句浪漫，后两句荒诞”的基本要求。

从各自的表现来看，ChatGPT虽然展现了更高的灵活性，但在内容深度上有些像个“中二少年”；而“通义千问”在比喻的内在关联上显得更为“靠谱”，但在句式、材料和表达上则略显“规整”。

虽然两者的表现都无法让人完全满意，但它们的未来依然值得期待。

在某种程度上，最后一个问题可被视为对模型能力的全面检验，因为它涉及到文学创作的核心。

实验要求这两组模型先对一个故事进行“学习”，随后自行续写。这样能够帮助我们更好地理解模型的理解、推理和创造能力——这个问题甚至可以留给人类来完成。

我们给出的素材来源于萨默塞特·毛姆的写作笔记：

“两个年轻的英国人在印度的一个偏远茶园工作。其中一位——我们称他为克里夫——每次投递都会收到几封信，而另一位——我们称他为杰弗里——却从未收到过一封信。某一天，杰弗里提议用五英镑向他的朋友换一封信……”

我们要求两个模型续写该故事，并给出一个带有讽刺意味的结尾。

首先，呈现ChatGPT的续写版本：

人工智能问答的未来：通义千问的初步评估

在这个充满期待的时代，关于“通义千问”的多项实测结果令人深思。尽管在回答问题的过程中，它有时会显得“胡言乱语”，但整体表现却不至于令人失望，甚至在某些特定情况下展现出令人刮目相看的能力。

回顾市场对百度“文心一言”的反应，我们不难发现，人工智能及其相关的生成内容技术（AIGC）正逐渐成为焦点。无论国内外产品的表现如何，推出实用的技术始终是重中之重。“文心一言”和“通义千问”的目标并不在于超越ChatGPT，更遑论参数更为庞大的GPT-4，只要它们能够达到基本的合格标准，便是值得肯定的成就，毕竟这仅仅是它们的初代版本。

展望未来，随着公测阶段的展开，“通义千问”有望在用户的持续测试中不断自我完善，逐步提升其功能和表现，这无疑令人期待。

来源：今日头条

原文标题：阿里云自研大模型“通义千问”亮相，我们进行了深度实测 – 今日头条

原文链接：https://www.toutiao.com/article/7219234053483037222/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完