共计 953 个字符,预计需要花费 3 分钟才能阅读完成。
国盛海外:夏君/朱若菲/刘澜/刘玲
在阿里推出的基于大模型的“通义千问”开始测试后,我们对阿里的这一产品和百度的“文心一言”进行了深入的实测评估。
考虑到这两个产品各自的优势,百度的“文心一言”在“文学创作、商业文案撰写、数理推算、中文理解及多模态生成”五个方面表现突出,而阿里的“通义千问”则在基础问答之外,提供了“提纲撰写、SWOT分析、商品描述生成、创意菜谱、小学生作文、继续叙述、赞美专家、情书创作、诗歌创作”等九种功能。因此,我们对这两个模型在上述维度进行了统一测试。
我们的评测主要围绕以下几个维度展开(样本数量有限,仅供参考):
- 内容生成模式:百度“文心一言”表现更佳。
- 多轮对话能力:阿里“通义千问”稍胜一筹。
- 数学推理:百度“文心一言”更为出色。
- 中文理解能力:阿里“通义千问”较强。
- 电商文案生成:阿里“通义千问”稍微领先。
- 内容生成模式:
当前,阿里“通义千问”仅支持文字(包括自然语言和代码)作为输入和输出。而百度“文心一言”则除了文字输入外,还能够支持图像输出。
阿里“通义千问”:
百度“文心一言”:
- 多轮对话:
在我们的测试过程中,阿里“通义千问”对上下文的关联把握非常到位(例如,前一个对话中的“座舱交互”场景)。而百度“文心一言”的回答则仅局限于当前提问,未能考虑上文的情境。
阿里“通义千问”:
百度“文心一言”:
- 数理推算:
正如百度所言,文心一言在基本的数学推算方面表现更为优异。相较之下,阿里“通义千问”的表现略显不足,而百度的推算不仅准确,还在我们调整参数后依然保持稳定。
阿里“通义千问”:
百度“文心一言”:
- 中文理解:
在我们的测试案例中,阿里“通义千问”在处理可能引起误解的名词时,展现出更强的知识储备和理解能力,而百度“文心一言”在此方面则未能准确捕捉信息。
阿里“通义千问”:
百度“文心一言”:
- 特定应用场景——电商文案生成:
尽管两者在基础上都存在一些错误,但都可以从不同的角度对商品进行总结和推荐。相比之下,阿里“通义千问”在电商文案的推介方面更为多样,且归纳的要点更为清晰。
阿里“通义千问”:
百度“文心一言”: