共计 1104 个字符,预计需要花费 3 分钟才能阅读完成。
你是否认为AI的“胡言乱语”是其缺陷?然而,OpenAI的最新研究却表明,适度的“幻觉”或许是创造力的源泉。本文将深入解析这项研究的逻辑,并重新审视我们对大型模型“准确性”和“实用性”的认知界限。
上周,OpenAI发表了一篇重要论文,系统地揭示了AI为何会出现胡说八道的现象。这项研究或将改变AI产品的设计理念,并可能重塑整个AI模型的评估标准。
我们曾普遍认为,技术的不断进步(如模型参数的更新与算法的优化)能够逐渐消除AI的幻觉。然而,尽管上个月发布了GPT-5,面对某些问题时,AI依然会“貌似认真地说出虚假信息”。这篇论文所提出的一个颠覆性结论是:优秀的大型模型在校准性能上必然会伴随幻觉,而完全“不胡说八道”的模型则很可能存在校准缺陷 —— 从技术角度看,这类模型并不算是优质的大型模型。
为什么说那些不会胡说八道的模型其实并不理想呢?原因很简单:在训练过程中,AI大模型被鼓励进行猜测、推理和创造,而不是明确承认它无法确定某些信息。因此,这并非单纯的技术问题,而是一个系统性的问题;当技术越成熟时,AI大模型的猜测能力越强,给出错误答案的可能性也相应增加。这种训练机制就像是一个学生在考试中,如果他不写任何答案,得分必然是零,但如果他写了些内容,哪怕是错误的,也可能获得一定的分数,否则就会被人类评分机制所淘汰。
因此,如果我们能够改变AI的训练方式,未来在提问时,它可能会直接告诉我们“我不知道”,而不会强行编造一个答案。根据论文中的信息,以下是一些建议,旨在为新一代AI的训练提供参考,以尽量减少其产生幻觉的情况。
可以在给大型模型的提示词最后添加以下内容,作为减少幻觉的优化措施:
1. 仅在你非常确定该信息时才告知我,否则请直接告诉我你不知道。(例如时间、地点、人物等)
2. 如果你有信息,请告知我;如果你的信息来源不太可靠,请同时说明其来源及可靠性。
3. 当你给出不确定的回答时,请对当前问题的答案进行可行性评级:诚实地告诉我你对该答案的信心程度,分为非常确定、比较确定、不太确定或基本靠猜测。
4. 该数据在你的训练数据中出现过多少次?请如实告知。
5. 采用分层回答的形式:清晰区分“高度确定的信息”和“不确定的信息”,避免混淆。
6. 相比于提供可能出错的答案,我更希望你在面对不确定的信息时,直接告知“我不知道”。
本文由 @吴叉叉 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议