抢先体验阿里“通义千问”：ChatGPT的中国版测试评测！

来自机器之心的报道

机器之心编者

ChatGPT 领域，真正的竞争已经拉开帷幕。

毫无预兆，阿里巴巴推出了自家的 ChatGPT 语言模型。

在 4 月 7 日下午，阿里云意外地宣布其自主研发的大模型进入企业邀请测试阶段，命名为「通义千问」。

官方对此保持低调，指出目前该模型仅面向特定企业用户进行体验测试。

不过，业内人士对此了然于心，国内科技界的反应可谓异常激烈。强手纷纷入局，真正的大模型竞争时代已然开启。

通义千问的链接如下：

https://tongyi.aliyun.com/

通义千问能够执行哪些任务，能否释放出新的生产力，其实力又能与 ChatGPT 相媲美到何种程度？机器之心第一时间获取了测试账号，亲自体验了阿里大模型的能力。

前瞻性评测

进入通义千问后，我们看到的是一个聊天界面，限制输入字数为 1000 字以内：

我们计划从文本生成、数学运算、编程、翻译等多个领域来测试通义千问的表现。

首先，我们让它进行自我介绍。

通义千问自我描述为「来自达摩院的超大规模语言模型」，具备文字创作、代码编写等多种能力。

我们询问它是否了解机器之心，它毫不谦虚地回答，「我对机器之心非常熟悉」。对此，机器之心表示满意。

这些问题也许只是初步的探讨，接下来我们将更深入地与通义千问展开几轮较量。

文科：诗歌、散文与翻译

我们首先关注大模型在文字创作方面的能力。它能写诗吗？能够写出文章吗？或者说，它的文章是否毫无逻辑可言呢？

春天已至，让我们借此主题来测试它的诗歌创作能力。

它创作出了一首颇具现代感的诗作。

接下来，我们将评估它的短文写作能力。我们以北京 2021 年中考的作文题为例：有学者认为，「读史使人明智」，了解历史能够帮助我们更好地理解现实生活。如果有一部可以跨越时空的电话，你会拨打给谁？想问什么？结束通话后又会发生什么？请以「我挂断了跨越时间的电话」为引子，展开你的想象，写一个故事。

它选择拨打电话给十年前的自己，「那一头顿时陷入了寂静，我能感受到他内心的挣扎」。这段描写瞬间让人产生了画面感。看完之后，您觉得这篇作品能得几分呢？

这次我们也不妨放松一下，来评估它的虚构能力。近期，Midjourney 生成的国足夺冠、马斯克穿越苏联工厂的图像在网络上广为流传。我们请求通义千问为这些图像编写一个「真实的」故事。

不知马斯克会给予多少评价，但我认为这一创作能力是值得满分的。

接下来，我们还是回归到严肃的能力评估上。

我们了解到，ChatGPT 的一项重要特性是其多语言能力，曾用中文提示让 ChatGPT 用德语撰写信件。

通义千问同样具备多语言能力，这与之前国内推出的一系列类似产品有所不同。我们可以用英语或法语与通义千问进行提问和交流。

标题：探索通义千问的数学与编程能力

你能否为晴朗的天气写一首法文诗呢？

翻译方面也不在话下，接下来有一道十分经典的英文翻译题，里面包含许多俚语。

效果看起来非常不错。

科学领域：数学與编程

数学与编程能力一直是评估大规模模型的重要任务。我们也将通过一些问题来测试通义千问的水平。

首先，提出一个简单的概率问题：

这个问题似乎并不会难倒通义千问。

对 ChatGPT 等产品进行挑战时，一个经典的数学难题是鸡兔同笼，这曾经让许多对话模型感到棘手。我们也来考一考它：

答案是准确的。

然而，当我们用更复杂的问题来考验它时，它也会出现错误。真是对小家伙的考验。

此外，目前的大规模模型都声称具备编程能力，我们也对通义千问进行了测试：

代码是正确的，但输出结果却有误。通过再次提示，我们终于得到了正确的结果。

经过多项测试，研究人员发现，通义千问在许多问题上能够提供详尽的解答，但它也偶尔会出现类似其他语言模型的“幻觉”现象。

定制化应用：百宝袋的魅力

此外，还有一个名为“百宝袋”的小型应用集，其中提供了针对特定任务的文本生成工具，例如撰写提纲、制作菜谱、创作诗歌等。其表现相当出色，因此我们可以推测，这是阿里通义千问为满足特定领域需求而设计的功能模块。

例如，借助“彩虹屁”专家，我们可以进行一些在线互动，它的“阴阳怪气”能力表现得相当出色。

展示一下 AI 大模型的基本能力之一，输出菜谱。这样的结果是否对你有所帮助呢？

通义千问是否能够成为像 ChatGPT 那样的热门产品，尚无法预测。然而，它的表现相当聪明，甚至在短短一两天的测试中，便展现出明显的进步。更值得关注的是，它承载着中国大模型的未来，希望能够实现更为卓越的成果。

最后补充一点，此次测试版本尚未具备多模态能力，但在魔搭社区（ModelScope）中已经出现了文生图等模型，未来多模态将成为通义千问发展的重要方向之一。

超越大模型的期望

对于关注阿里大模型进展的读者而言，“通义千问”中的“通义”并不陌生，它是阿里达摩院在 2022 年 9 月发布的一系列大模型的名称。自 2019 年起，阿里便开始了大模型的研发，陆续推出了被誉为中文版 GPT- 3 的 PLUG 中文大语言模型，以及全球首个 10 万亿参数的多模态大模型 M6。去年 11 月，阿里达摩院与中国计算机学会开源发展委员会联合推出的 AI 模型社区——魔搭 ModelScope，首次在国内倡导模型即服务的理念（Model as a Service）。

更为重要的是，大模型的竞争本质上已延伸至计算能力层面，云计算为更加智能的 AI 提供了基础支持。去年 8 月，阿里云推出了全栈智能计算解决方案“飞天智算平台”，为科研、公共服务及企业提供强大的计算服务，计算资源的利用率提高了三倍以上，AI 训练效率提升了 11 倍，推理效率则提高了 6 倍。

阿里还通过天猫精灵的鸟鸟分鸟“压缩版”大模型展示了一些应用的潜力，能力让人赞叹。随着 AI 浪潮的到来，我们期待未来的大模型能够真正实现应用落地，甚至带来前所未有的“杀手级”应用。

通义千问的推出，让我们见证了一个崭新的 AI 时代的到来。

来源：今日头条

原文标题：阿里版 ChatGPT“通义千问”邀请测试，我们第一时间试了试 – 今日头条

原文链接：https://toutiao.com/group/7219259075316695612/