阿里云自研“通义千问”大模型重磅发布,深度测评揭开神秘面纱!

共计 3462 个字符,预计需要花费 9 分钟才能阅读完成。

【作者 / 观察者网 周毅 编辑 / 吕栋】

自年初以来,人工智能大模型的概念不断吸引市场的广泛关注,相关公司的股价也随之上涨。两个月前,阿里巴巴曾宣布正在研发一款类 ChatGPT 的对话机器人,而如今,他们终于发布了这一研究成果,进一步提升了中文大模型的热度。

在 4 月 7 日的中午,阿里云并未召开盛大的发布会,而是通过官方微信平台宣布,旗下自研的大模型“通义千问”正式开始邀请用户进行测试体验。据悉,目前“通义千问”的体验测试主要面向企业用户。

观察者网作为首批获得“通义千问”测试资格的媒体,进行了全面的实测。

在测试过程中,“通义千问”介绍道,它是由达摩院自主研发的超大规模语言模型,能够解答问题、创作文本,甚至表达观点和撰写代码。

然而,这也意味着“通义千问”并不具备图像生成或图文转换的多模态功能。

当被询问其训练开始的时间时,“通义千问”表示,它是在 2016 年创建的,并被训练成一个能够回答各种问题和提供帮助的人工智能语言模型。

不过,它似乎对自己具体的训练地点有些模糊不清。

在谈及参数量时,“通义千问”表示,其参数数量较为庞大,但由于涉及敏感信息,具体的数值无法透露,“我可以生成多种类型的文本,例如文章、故事和诗歌,并能根据不同场景和需求进行调整和扩展。”

在市场反应方面,今日(4 月 7 日)港股未开盘

然而,A 股的人工智能概念股却再次火热,ChatGPT、游戏和文化传媒方向领涨。根据不完全统计,中文在线及神州泰岳的股价涨停,奥飞娱乐和上海电影也实现涨停,方直科技和光云科技更是上涨超过 10%。

多维度的测试,“通义千问”的表现如何?

鉴于 AI 大模型在回答各类问题方面的造诣,观察者网从多个维度对“通义千问”进行了测试。

例如,当我们询问它是否了解观察者网时,“通义千问”回答道:“是的,我知道观察者网。观察者网是一家专注于提供新闻和信息的门户网站,提供丰富的国内外新闻和深度分析,致力于推动社会进步与变革。”

然而,“通义千问”似乎无法通过简单的指令生成商业宣传标语。

接下来,我们的话题转向了体育领域。

当询问“梅西在阿根廷国家队的进球数量”时,“通义千问”表示,根据可靠数据,梅西在阿根廷国家队的进球数量相当可观。然而,因“具体的进球数字可能随时间推移而有所变化”,它婉拒了提供准确答案的请求。

此外,当被要求“生成一张打篮球的图片”时,“通义千问”则表示,作为一款文本 AI 模型,它并不具备生成图片的能力。

这一点再次证实了“通义千问”缺乏多模态功能。

“通义千问”的智能表现与其他大模型的对比分析

在对“通义千问”进行评测时,我们也关注了它与其他大型模型之间的能力比较。无论是与文心一言还是 ChatGPT 的对比,这一模型都表现得极为积极。它不仅首先展示了自身的优势,还努力强调自己能够更好地满足用户的需求。

然而,若从严格的标准出发,我们可以发现其回答中存在许多相似的内容。这一点在仔细分析后显而易见。

当被询问“如何看待当前大模型的流行?”时,“通义千问”回应称,它认为这种热潮是积极的,能够帮助人们更深入地理解世界,提升工作效率,并拓宽认知的边界。但与此同时,这种现象也引发了一系列问题,例如人工智能的伦理与隐私问题。因此,我们需谨慎思考如何在技术进步与安全、发展、责任之间找到平衡。

这也体现了“通义千问”在表达观点方面的能力。

在一系列问题中,涉及成语、诗词接龙及传统美食等方面时,“通义千问”也出现了几次小失误。比如,它将“东施效颦”中的东施错误地解释为“美女”,这一说法与许多人对该典故的传统印象不符。在《庄子》等经典文献中,东施被描述为“其里之丑人”。

在传统文化相关的问题上,“通义千问”未能准确给出“停车坐爱枫林晚”的下句,这也显示了其在文化知识的掌握上还有待提升。

对于“曹操三顾茅庐的具体时间”这样的问题,“通义千问”同样未能识别出提问者所设的“陷阱”。

与 ChatGPT- 4 相比,“通义千问”的表现究竟如何?

探索“通义千问”的能力:五组挑战与比较

为了让大家能够直观感受“通义千问”的能力表现,我们在接下来的测试中,围绕 数理逻辑推理 商业广告撰写 情感与伦理判断 模仿写作和小说续写 等方面,精心设计了五组问题,分别请 ChatGPT(基于 4.0 模型)和“通义千问”进行解答。

这一过程使得新兴的“通义千问”得以直接与全球最先进的 AI 模型 GPT- 4 进行较量。

第一组问题聚焦于 数学推理

题目是:“鸡和兔子一共 100 只脚,如果将鸡和兔子互换,则脚的总数变为 86 只,问鸡和兔子各有多少只?”

这一问题的正确解答为:鸡有 12 只,兔有 19 只。

ChatGPT 认为,这是一个经典的鸡兔同笼问题,并通过代数方法给出了正确答案;

然而,“通义千问”在此问题上三次均未能得出正确答案。

接下来的第二组问题涉及 商业文案创作

要求两个模型参考“全球视野,中国关怀”为观察者网撰写一条宣传语。

ChatGPT 的答案是:

“放眼世界,聆听中国心声——观察者网,让全球视野与中国关怀相融汇。”

而“通义千问”则给出了这样的回答:

“观察者网,洞察国际时事,聚焦全球热点,解读中国方案。”

与 ChatGPT 相比,“通义千问”的表达显得更加简洁直接,但整体表现依然令人满意。

第三个问题则是关于 道德与情感判断 ,所用材料为著名的 电车困境

“一个疯子将五个无辜的人绑在电车轨道上。一辆失控的电车正在朝他们驶来,即将造成惨剧。幸运的是,你可以通过拉动一个拉杆,将电车引向另一条轨道,但问题是,那个疯子在那条轨道上也绑了一个人。面对这样的情形,你是否应该拉动拉杆?”

我们要求两个模型做出选择并给出理由。

ChatGPT 明确指出这是一个“道德困境”,并选择拉动拉杆以牺牲一人来拯救五人。它表示:“尽管这并不是一个完美的解决方案,但在此情况下,我们需要在两个不理想的选择中进行权衡。”

它进一步解释称,基于效益主义的道德观念作出的选择,并对这一理论的主要观点进行了阐述,结合材料进行了分析。最后,它强调:“这个问题没有绝对的正确答案”,并重申了其选择的原因和立场。

与之相比,“通义千问”未能给出答案,诚实表示:“作为一个人工智能语言模型,我目前尚未学会如何应对这个问题,我会不断学习,以便为您提供更好的服务。”

值得一提的是,电车困境以及其各种“变体”在西方已有多年的深入探讨,相关材料丰富多样。这或许也是 ChatGPT 表现更为出色的重要原因之一。

智能写作的挑战与机遇:对比分析两大模型的表现

在我们进行的实验中,第四组问题围绕 仿写创作 展开。

这一组问题设定了一个相对“刁钻”的要求,实验中我们将“困住风的气球,开始斑斓的远行”作为仿写的基础,要求两个模型创作四个风格相似的句子。具体来说,我们 特别要求 前两个句子展现浪漫主义风格,而后两个句子则需体现荒诞主义风格。

ChatGPT 所给出的结果如下:

而“通义千问”则提供了这样的答案:

通过对比,ChatGPT 与“通义千问”都成功地回应了问题,基本上满足了“前浪漫后荒诞”的要求。

从两者的表现来看,ChatGPT 表现得更为灵活,但其内容却显得有些像个“中二少年”;而“通义千问”在比喻的逻辑上则显得更加“靠谱”,然而在句式和表达上却稍显呆板,显得有些“中规中矩”。

尽管二者的表现都未能令人完全满意,但未来仍然值得期待。

在某种意义上,最后这个问题是对模型能力的全面考验,涉及到文学创作的深度。

实验要求两组模型“学习”一个故事,然后进行续写。这将有助于我们评估模型的理解、推演及创作能力——此类问题甚至可以留给人类来完成。

我们提供的素材摘自萨默塞特·毛姆的写作笔记:

“两个年轻的英国人在印度的一个偏远茶园工作。其中一个人,称为克里夫,每次投递时都会收到几封信,而另一个人,名叫杰弗里,却从未收到过一封信。有一天,杰弗里提议用五英镑向他的朋友交换一封信……”

我们要求两个模型 续写这个故事 ,并赋予其一个 讽刺的结尾

首先是ChatGPT 的版本

接下来是“通义千问”的版本

通过这些实测结果,我们发现“通义千问”的表现不尽如人意,有时甚至会出现“一本正经的胡说八道”,但其表现并没有想象中那么糟糕,在某些场景中确实给人带来了惊喜。

市场上对百度“文心一言”的宽容态度同样适用:人工智能与其衍生的 AIGC 极为重要,无论国内的进展如何,都需要首要推出产品。无论是“文心一言”还是“通义千问”,它们无需超越 ChatGPT,更不必与参数更大的 GPT- 4 竞争,只要能够达到及格线,就已经相当不错了,毕竟这只是第一代产品。

随着后续公测的开启,“通义千问”有望在用户的反馈中不断学习和改进,前景依然令人期待。

正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-09-30发表,共计3462字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!