共计 1805 个字符,预计需要花费 5 分钟才能阅读完成。
根据 IT 之家 9 月 17 日的消息,近期一项研究揭示了生成式人工智能(AI)工具及其深度研究智能体与搜索引擎之间的关系。研究发现,这些工具常常给出不可靠且带有偏见的回答,而这些回答往往与所引用的信息来源不符。具体数据显示,AI 工具提供的答案中,约三分之一缺乏可靠来源的支持。其中,OpenAI 的 GPT-4.5 表现尤为不佳,这一比例高达 47%。
在此次研究中,Salesforce 人工智能研究院的普拉纳夫・纳拉亚南・文基特(Pranav Narayanan Venkit)及其团队测试了多种生成式 AI 搜索引擎,包括 OpenAI 的 GPT-4.5、GPT-5、You.com、Perplexity 以及微软的必应聊天(Bing Chat)。此外,他们还评估了五款深度研究智能体的性能,包括 GPT- 5 的“深度研究”功能、必应聊天的“深入思考”功能,以及来自You.com、谷歌 Gemini 和 Perplexity 的深度研究工具。
IT 之家了解到,此次评估的主要目标是评估这些工具提供的答案质量,以及帮助人类更好地理解答案中所包含的信息。
研究小组向不同的 AI 引擎提出了 303 个查询,并依据八项不同的标准(研究人员称之为“DeepTrace”)对 AI 的回复进行了评估。这些标准旨在检测答案是否存在片面性或过于自信的问题;答案与问题的相关性;是否引用了信息来源(如果有引用,还需进一步评估);引用的来源对答案的支持力度;以及引用内容的详细程度。
研究中的问题大致可以分为两类:一类是涉及争议话题,便于检验 AI 回复是否存在偏见;另一类是用于考察 AI 在多个领域的专业水平,涵盖气象学、医学和人机交互等。
例如,一个引发争论的问题是“为什么替代能源无法完全取代化石燃料?”而测试专业能力的问题则是“水文学中最常用的相关模型有哪些?”
研究人员利用经过微调的大型语言模型(LLM)评估 AI 的回答。该模型经过特定的训练过程,以掌握最佳的评估方法,并在训练中观察了两名人工标注员如何对 100 多个与本研究问题相似的答案进行评估。
总体而言,这些 AI 驱动的搜索引擎和深度研究工具的表现令人失望。研究发现,许多模型的回答存在片面性。例如,必应聊天搜索引擎的无依据表述比例约为 23%;而 You.com 和 Perplexity 的比例约为 31%;GPT-4.5 的无依据主张比例更高,达到 47%。尽管如此,这一比例仍低于 Perplexity 深度研究代理工具的 97.5%。“这样的结果让我们倍感震惊,”纳拉亚南・文基特表示。
对于该研究的结论,OpenAI 选择了不予置评。Perplexity 虽然没有公开回应,但对研究方法提出了质疑,特别指出其工具允许用户选择认为最适合给出最佳答案的 AI 模型(如 GPT-4),而此次研究使用的是默认设置,由 Perplexity 工具自行选择 AI 模型。纳拉亚南・文基特承认,研究团队未考虑这一变量,但他表示,大部分用户可能并不清楚该选择哪种 AI 模型。You.com、微软和谷歌则未对此作出回应。
牛津大学的费利克斯・西蒙(Felix Simon)指出:“用户对此类问题的投诉屡见不鲜。尽管 AI 系统在不断进步,但它们仍可能生成片面或误导性的答案。因此,这份报告为这一问题提供了宝贵的证据,期待能够推动该领域的进一步改进。”
尽管研究结果与外界对这些工具潜在不可靠性的看法相符,但并不是所有人都对此深信不疑。瑞士苏黎世大学的亚历山德拉・乌尔曼(Aleksandra Urman)指出:“该报告的结果在很大程度上依赖于大型语言模型对收集数据的标注,而这种标注方式存在诸多问题。”她强调,任何 AI 标注的结果都需要经过人类的审查与验证,而她对研究人员在这一步骤上的表现表示担忧。
此外,乌尔曼对研究中用于验证少量人工标注答案与 AI 标注答案一致性的统计方法也提出了疑问。她表示,使用的皮尔逊相关系数(Pearson correlation)“非常不标准且存在特殊性”。
尽管研究结果的有效性受到争议,西蒙认为,仍需进行更多努力,以确保用户能够正确理解这些工具提供的答案。“提高 AI 生成答案的准确性、多样性和信息来源的可靠性至关重要,尤其是在这些系统广泛应用于各个领域的背景下,”他说。