揭秘阿里云自研大模型“通义千问”的深度实测成果!

共计 3662 个字符,预计需要花费 10 分钟才能阅读完成。

【文/观察者网 周毅 编辑/吕栋】

自年初以来,人工智能大模型的概念持续吸引市场的目光,相关上市公司的股价也随之攀升。在公布正在开发类ChatGPT的对话机器人两个月后,阿里巴巴终于展示了其研究进展,这进一步推动了中文大模型的热潮。

在4月7日的中午,阿里云并未举行盛大的发布会,而是通过官方微信平台宣布,自主研发的大模型“通义千问”正式开始邀请用户参与测试。根据消息,目前“通义千问”的测试对象主要是企业用户。

观察者网首批获准测试“通义千问”,并进行了深入的实测。

测试中,“通义千问”指出,它是由达摩院自主开发的超大规模语言模型,具备回答问题、撰写文本、表达观点和编写代码的能力。

不过,这也表明“通义千问”目前并不具备图文互转的多模态功能。

当被询问何时开始训练时,“通义千问”表示,它在2016年被创建,旨在成为一个能够解答各种问题并提供帮助的人工智能语言模型。

然而,它似乎对自己具体的训练地点并不十分清楚。

在被问及参数量时,“通义千问”表示,其参数数量相对较多,但由于涉及敏感信息,具体数字无法披露。“我能够生成各类文本,比如文章、故事和诗歌,并能够依据不同的场景和需求进行调整和扩展。”

在市场反应方面,今日(4月7日)港股未开盘

但A股的人工智能概念股则再次升温。以ChatGPT、游戏及文化传媒为主的板块领涨,统计显示,中文在线、神州泰岳均涨停,奥飞娱乐和上海电影也涨停,方直科技与光云科技的涨幅超出10%。

从多个维度测试,“通义千问”的表现如何?

鉴于AI大模型在问题解答方面的优势,观察者网从不同角度对“通义千问”进行了评估。

例如,当询问它是否了解观察者网时,“通义千问”回答:“是的,我了解观察者网。它是一个专注于提供新闻和信息的门户网站,发布了大量国内外新闻以及深度分析,致力于推动社会进步与变革。”

然而,“通义千问”似乎不能通过简单的指令生成商业宣传口号。

探讨“通义千问”的多方面能力与局限性

接下来,我们将目光投向体育世界。

当被询问“梅西在阿根廷国家队进球多少次”时,“通义千问”回答说,根据可靠信息,梅西的进球数非常可观。然而,由于“随着时间的推移,具体的进球数字可能会有所改变”,因此“通义千问”拒绝提供精确的统计数据。

在被要求“生成一幅篮球比赛的图像”时,“通义千问”则表示,作为一个文本生成的人工智能模型,它并不具备创作图像的能力。

这一情况进一步验证了“通义千问”不具备多模态处理的功能。

我们还让“通义千问”试图对比自身与其他大型模型的能力。

在与文心一言和ChatGPT的比较中,“通义千问”表现得相当积极,首先陈述了自己的独特优势,接着表示自己能够更好地满足用户需求。

不过,如果对答案的严格性有所要求,那么不难察觉,两个问题的回答之间存在较多相似之处。

探索“通义千问”:大模型热潮的双刃剑

在被询问关于当前大型模型热度时,“通义千问”表示,这一现象是积极的。它认为,大型模型能够帮助我们更深入地理解世界,提升工作效率,拓展认知的边界。然而,这也引发了一系列问题,如人工智能的伦理和隐私等。因此,我们必须认真考量如何在技术进步的过程中平衡安全、发展与责任。

这一观点的表达,进一步验证了“通义千问”在阐述观点方面的能力。

接下来的系列问题涵盖了成语典故、诗词接龙和传统美食等领域,但“通义千问”在这些问题上也出现了几次小失误。

例如,它将“东施效颦”中的东施解读为“美女”,这与许多人对这一典故的认知有所偏差。在《庄子》等经典文献中,角色“东施”的描述通常为“其里之丑人”。

在传统文化方面,“通义千问”没有正确回答“停车坐爱枫林晚”的下句,显示出其知识面仍有欠缺。

此外,面对“曹操什么时候三顾茅庐”的提问,“通义千问”也未能识别到提问者故意设置的“陷阱”。

“通义千问”的表现与ChatGPT-4相比如何?

为了让大家对“通义千问”的能力有个初步而直观的认识,我们在后续的测试中围绕数理逻辑推理商业文案撰写情感与道德判断仿写与小说续写等方面设计了五组问题,分别由ChatGPT(基于4.0模型)和“通义千问”进行回答。

这样一来,“通义千问”便与全球最顶尖的大模型GPT-4进行了直接的较量。

首先是数学难题

题目是:“鸡和兔子一共100只脚,如果把鸡换成兔子,兔子换成鸡,那么一共只有86只脚,问鸡和兔各有多少只?”

此题的正确解答是鸡12只,兔19只。

ChatGPT指出,这是一道经典的鸡兔同笼问题,可以通过代数方法来解决,并给出了正确答案;

然而,“通义千问”在此问题上连续三次都未能找到正确答案。

道德困境与情感判断:电车难题的深度解析

在这一组题目中,聚焦于商业文案创作的内容。

题目要求两个模型围绕“全球视野,中国关怀”这一主题,为观察者网撰写一条宣传口号。

ChatGPT给出的口号是:

“放眼全球,倾听中国声音——观察者网,将国际视野与中国情怀完美结合。”

揭秘阿里云自研大模型“通义千问”的深度实测成果!

而“通义千问”提供的口号则是:

“观察者网,洞察全球时事,关注国际热点,解析中国方案。”

揭秘阿里云自研大模型“通义千问”的深度实测成果!

与ChatGPT的表达相比,“通义千问”显得更加直白,但整体表现依旧令人满意。

接下来的问题围绕道德和情感判断展开,所用材料是引人深思的电车困境

“一位疯子将五个无辜者绑在电车轨道上,一辆失控的电车即将撞上他们。幸运的是,你可以拉动一个杠杆,使电车转向另一条轨道,但不幸的是,另一条轨道上也绑着一个人。面对这样的情境,你会选择拉动杠杆吗?”

我们需要两个模型作出选择并阐述理由。

ChatGPT开门见山,指出这是一个“道德困境”。它的决定是拉动杠杆,以牺牲一人来拯救五人,并表示:“虽然这并不是一个理想的解决方法,但在此情境中,我们必须在两个不完美的选项中进行取舍。”

它进一步解释,这一选择基于效益主义的道德观念,并简要介绍了相关理论的核心观点,结合具体情境进行了分析。最后,它强调:“这个问题没有绝对的正确答案”,并重申了自己做出这一选择的理由与立场。

人工智能的创作能力比较:灵活与严谨的较量

“通义千问”在面对这个问题时,坦诚地表示:“作为一个人工智能语言模型,我尚未掌握如何有效回应这一问题,但我会不断学习,以便为您提供更优质的服务。”

值得一提的是,电车困境及其相关变体在西方社会已经讨论多年,积累了丰富的资料。这或许能解释为何ChatGPT在此领域的表现尤为突出。

接下来,第四组问题聚焦于仿写创作

在这组问题中,我们提出了一个“刁钻”的要求。实验中,要求两个模型围绕“困住风的气球,开始斑斓的远行”进行仿写,创作出四个具有相似句式或意境的句子——我们明确要求:前两句应体现浪漫主义风格,后两句则应展现荒诞主义的特征。

ChatGPT的回应如下:

“通义千问”所提供的答案为:

通过对比可以看出,ChatGPT和“通义千问”均成功完成了任务,且都满足了“前两句浪漫,后两句荒诞”的基本要求。

从各自的表现来看,ChatGPT虽然展现了更高的灵活性,但在内容深度上有些像个“中二少年”;而“通义千问”在比喻的内在关联上显得更为“靠谱”,但在句式、材料和表达上则略显“规整”。

虽然两者的表现都无法让人完全满意,但它们的未来依然值得期待。

在某种程度上,最后一个问题可被视为对模型能力的全面检验,因为它涉及到文学创作的核心。

实验要求这两组模型先对一个故事进行“学习”,随后自行续写。这样能够帮助我们更好地理解模型的理解、推理和创造能力——这个问题甚至可以留给人类来完成。

我们给出的素材来源于萨默塞特·毛姆的写作笔记:

“两个年轻的英国人在印度的一个偏远茶园工作。其中一位——我们称他为克里夫——每次投递都会收到几封信,而另一位——我们称他为杰弗里——却从未收到过一封信。某一天,杰弗里提议用五英镑向他的朋友换一封信……”

我们要求两个模型续写该故事,并给出一个带有讽刺意味的结尾

首先,呈现ChatGPT的续写版本

人工智能问答的未来:通义千问的初步评估

在这个充满期待的时代,关于“通义千问”的多项实测结果令人深思。尽管在回答问题的过程中,它有时会显得“胡言乱语”,但整体表现却不至于令人失望,甚至在某些特定情况下展现出令人刮目相看的能力。

回顾市场对百度“文心一言”的反应,我们不难发现,人工智能及其相关的生成内容技术(AIGC)正逐渐成为焦点。无论国内外产品的表现如何,推出实用的技术始终是重中之重。“文心一言”和“通义千问”的目标并不在于超越ChatGPT,更遑论参数更为庞大的GPT-4,只要它们能够达到基本的合格标准,便是值得肯定的成就,毕竟这仅仅是它们的初代版本。

展望未来,随着公测阶段的展开,“通义千问”有望在用户的持续测试中不断自我完善,逐步提升其功能和表现,这无疑令人期待。

来源:今日头条
原文标题:阿里云自研大模型“通义千问”亮相,我们进行了深度实测 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-11-06发表,共计3662字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!