共计 2432 个字符,预计需要花费 7 分钟才能阅读完成。
来自机器之心的报道
机器之心编者
ChatGPT 领域,真正的竞争已经拉开帷幕。
毫无预兆,阿里巴巴推出了自家的 ChatGPT 语言模型。
在 4 月 7 日下午,阿里云意外地宣布其自主研发的大模型进入企业邀请测试阶段,命名为「通义千问」。

官方对此保持低调,指出目前该模型仅面向特定企业用户进行体验测试。
不过,业内人士对此了然于心,国内科技界的反应可谓异常激烈。强手纷纷入局,真正的大模型竞争时代已然开启。

通义千问的链接如下:
https://tongyi.aliyun.com/
通义千问能够执行哪些任务,能否释放出新的生产力,其实力又能与 ChatGPT 相媲美到何种程度?机器之心第一时间获取了测试账号,亲自体验了阿里大模型的能力。
前瞻性评测
进入通义千问后,我们看到的是一个聊天界面,限制输入字数为 1000 字以内:

我们计划从文本生成、数学运算、编程、翻译等多个领域来测试通义千问的表现。
首先,我们让它进行自我介绍。
通义千问自我描述为「来自达摩院的超大规模语言模型」,具备文字创作、代码编写等多种能力。

我们询问它是否了解机器之心,它毫不谦虚地回答,「我对机器之心非常熟悉」。对此,机器之心表示满意。

这些问题也许只是初步的探讨,接下来我们将更深入地与通义千问展开几轮较量。
文科:诗歌、散文与翻译
我们首先关注大模型在文字创作方面的能力。它能写诗吗?能够写出文章吗?或者说,它的文章是否毫无逻辑可言呢?
春天已至,让我们借此主题来测试它的诗歌创作能力。

它创作出了一首颇具现代感的诗作。
接下来,我们将评估它的短文写作能力。我们以北京 2021 年中考的作文题为例:有学者认为,「读史使人明智」,了解历史能够帮助我们更好地理解现实生活。如果有一部可以跨越时空的电话,你会拨打给谁?想问什么?结束通话后又会发生什么?请以「我挂断了跨越时间的电话」为引子,展开你的想象,写一个故事。

它选择拨打电话给十年前的自己,「那一头顿时陷入了寂静,我能感受到他内心的挣扎」。这段描写瞬间让人产生了画面感。看完之后,您觉得这篇作品能得几分呢?
这次我们也不妨放松一下,来评估它的虚构能力。近期,Midjourney 生成的国足夺冠、马斯克穿越苏联工厂的图像在网络上广为流传。我们请求通义千问为这些图像编写一个「真实的」故事。


不知马斯克会给予多少评价,但我认为这一创作能力是值得满分的。
接下来,我们还是回归到严肃的能力评估上。
我们了解到,ChatGPT 的一项重要特性是其多语言能力,曾用中文提示让 ChatGPT 用德语撰写信件。
通义千问同样具备多语言能力,这与之前国内推出的一系列类似产品有所不同。我们可以用英语或法语与通义千问进行提问和交流。

标题:探索通义千问的数学与编程能力

你能否为晴朗的天气写一首法文诗呢?
翻译方面也不在话下,接下来有一道十分经典的英文翻译题,里面包含许多俚语。

效果看起来非常不错。
科学领域:数学與编程
数学与编程能力一直是评估大规模模型的重要任务。我们也将通过一些问题来测试通义千问的水平。
首先,提出一个简单的概率问题:

这个问题似乎并不会难倒通义千问。
对 ChatGPT 等产品进行挑战时,一个经典的数学难题是鸡兔同笼,这曾经让许多对话模型感到棘手。我们也来考一考它:

答案是准确的。
然而,当我们用更复杂的问题来考验它时,它也会出现错误。真是对小家伙的考验。
此外,目前的大规模模型都声称具备编程能力,我们也对通义千问进行了测试:

代码是正确的,但输出结果却有误。通过再次提示,我们终于得到了正确的结果。

经过多项测试,研究人员发现,通义千问在许多问题上能够提供详尽的解答,但它也偶尔会出现类似其他语言模型的“幻觉”现象。
定制化应用:百宝袋的魅力
此外,还有一个名为“百宝袋”的小型应用集,其中提供了针对特定任务的文本生成工具,例如撰写提纲、制作菜谱、创作诗歌等。其表现相当出色,因此我们可以推测,这是阿里通义千问为满足特定领域需求而设计的功能模块。




超越大模型的期望
对于关注阿里大模型进展的读者而言,“通义千问”中的“通义”并不陌生,它是阿里达摩院在 2022 年 9 月发布的一系列大模型的名称。自 2019 年起,阿里便开始了大模型的研发,陆续推出了被誉为中文版 GPT- 3 的 PLUG 中文大语言模型,以及全球首个 10 万亿参数的多模态大模型 M6。去年 11 月,阿里达摩院与中国计算机学会开源发展委员会联合推出的 AI 模型社区——魔搭 ModelScope,首次在国内倡导模型即服务的理念(Model as a Service)。
更为重要的是,大模型的竞争本质上已延伸至计算能力层面,云计算为更加智能的 AI 提供了基础支持。去年 8 月,阿里云推出了全栈智能计算解决方案“飞天智算平台”,为科研、公共服务及企业提供强大的计算服务,计算资源的利用率提高了三倍以上,AI 训练效率提升了 11 倍,推理效率则提高了 6 倍。
阿里还通过天猫精灵的鸟鸟分鸟“压缩版”大模型展示了一些应用的潜力,能力让人赞叹。随着 AI 浪潮的到来,我们期待未来的大模型能够真正实现应用落地,甚至带来前所未有的“杀手级”应用。
通义千问的推出,让我们见证了一个崭新的 AI 时代的到来。