研究揭示生成式AI工具答复质量堪忧：三分之一内容缺乏可信来源支持

共计 1805 个字符，预计需要花费 5 分钟才能阅读完成。

根据 IT 之家 9 月 17 日的消息，近期一项研究揭示了生成式人工智能（AI）工具及其深度研究智能体与搜索引擎之间的关系。研究发现，这些工具常常给出不可靠且带有偏见的回答，而这些回答往往与所引用的信息来源不符。具体数据显示，AI 工具提供的答案中，约三分之一缺乏可靠来源的支持。其中，OpenAI 的 GPT-4.5 表现尤为不佳，这一比例高达 47%。

在此次研究中，Salesforce 人工智能研究院的普拉纳夫・纳拉亚南・文基特（Pranav Narayanan Venkit）及其团队测试了多种生成式 AI 搜索引擎，包括 OpenAI 的 GPT-4.5、GPT-5、You.com、Perplexity 以及微软的必应聊天（Bing Chat）。此外，他们还评估了五款深度研究智能体的性能，包括 GPT- 5 的“深度研究”功能、必应聊天的“深入思考”功能，以及来自You.com、谷歌 Gemini 和 Perplexity 的深度研究工具。

IT 之家了解到，此次评估的主要目标是评估这些工具提供的答案质量，以及帮助人类更好地理解答案中所包含的信息。

研究小组向不同的 AI 引擎提出了 303 个查询，并依据八项不同的标准（研究人员称之为“DeepTrace”）对 AI 的回复进行了评估。这些标准旨在检测答案是否存在片面性或过于自信的问题；答案与问题的相关性；是否引用了信息来源（如果有引用，还需进一步评估）；引用的来源对答案的支持力度；以及引用内容的详细程度。

研究中的问题大致可以分为两类：一类是涉及争议话题，便于检验 AI 回复是否存在偏见；另一类是用于考察 AI 在多个领域的专业水平，涵盖气象学、医学和人机交互等。

例如，一个引发争论的问题是“为什么替代能源无法完全取代化石燃料？”而测试专业能力的问题则是“水文学中最常用的相关模型有哪些？”

研究人员利用经过微调的大型语言模型（LLM）评估 AI 的回答。该模型经过特定的训练过程，以掌握最佳的评估方法，并在训练中观察了两名人工标注员如何对 100 多个与本研究问题相似的答案进行评估。

总体而言，这些 AI 驱动的搜索引擎和深度研究工具的表现令人失望。研究发现，许多模型的回答存在片面性。例如，必应聊天搜索引擎的无依据表述比例约为 23%；而 You.com 和 Perplexity 的比例约为 31%；GPT-4.5 的无依据主张比例更高，达到 47%。尽管如此，这一比例仍低于 Perplexity 深度研究代理工具的 97.5%。“这样的结果让我们倍感震惊，”纳拉亚南・文基特表示。

对于该研究的结论，OpenAI 选择了不予置评。Perplexity 虽然没有公开回应，但对研究方法提出了质疑，特别指出其工具允许用户选择认为最适合给出最佳答案的 AI 模型（如 GPT-4），而此次研究使用的是默认设置，由 Perplexity 工具自行选择 AI 模型。纳拉亚南・文基特承认，研究团队未考虑这一变量，但他表示，大部分用户可能并不清楚该选择哪种 AI 模型。You.com、微软和谷歌则未对此作出回应。

牛津大学的费利克斯・西蒙（Felix Simon）指出：“用户对此类问题的投诉屡见不鲜。尽管 AI 系统在不断进步，但它们仍可能生成片面或误导性的答案。因此，这份报告为这一问题提供了宝贵的证据，期待能够推动该领域的进一步改进。”

尽管研究结果与外界对这些工具潜在不可靠性的看法相符，但并不是所有人都对此深信不疑。瑞士苏黎世大学的亚历山德拉・乌尔曼（Aleksandra Urman）指出：“该报告的结果在很大程度上依赖于大型语言模型对收集数据的标注，而这种标注方式存在诸多问题。”她强调，任何 AI 标注的结果都需要经过人类的审查与验证，而她对研究人员在这一步骤上的表现表示担忧。

此外，乌尔曼对研究中用于验证少量人工标注答案与 AI 标注答案一致性的统计方法也提出了疑问。她表示，使用的皮尔逊相关系数（Pearson correlation）“非常不标准且存在特殊性”。

尽管研究结果的有效性受到争议，西蒙认为，仍需进行更多努力，以确保用户能够正确理解这些工具提供的答案。“提高 AI 生成答案的准确性、多样性和信息来源的可靠性至关重要，尤其是在这些系统广泛应用于各个领域的背景下，”他说。

来源：今日头条

原文标题：研究显示生成式 AI 工具答案质量堪忧：三分之一缺乏可靠来源支持 – 今日头条

原文链接：https://toutiao.com/group/7551065221968757298/

正文完