共计 2064 个字符,预计需要花费 6 分钟才能阅读完成。

全球观察者深度出品
纵横寰宇,洞察时代风云
大家好,欢迎收看【国际协作站】
在 1 月,Anthropic 公司发布了一项重磅研究,介绍了他们的 Claude 模型,似乎开始对自身进行 ” 反思 ”。
这并不是说人工智能突然拥有了自我意识,而是它能够 ” 感知 ” 内部的思维过程,这在人工智能领域可谓是一个重要的里程碑。
接下来,我们先来探讨这项研究的重要性。

在研究人工智能的过程中,我们常常感到像是在解谜。
模型为何得出这样的答案?这点我们无法得知,因为它的 ” 思维 ” 如同一个黑箱。
虽然我们能够看到输入和输出,但中间的计算过程却像是隔着磨砂玻璃,模糊不清。
Anthropic 此次的研究,旨在清晰化这一过程,让我们能够 ” 倾听 ”AI 的自我表达。

从 ” 猜谜 ” 到 ” 对话 ”,Anthropic 的创新实验
这一次,Anthropic 打破常规,进行了一个名为 ” 概念注入 ” 的实验。
简单来说,他们首先让 Claude 记住某个概念的神经活动模式,例如 ” 全部大写的文本 ”,然后悄悄将这一模式融入到其处理的任务中,观察它是否能够察觉到。
结果颇具趣味。
揭示 AI 的思维过程:Claude 的“隐秘感知”实验
在理想情况下,Claude 能够识别大约 20% 的“注入信号”。
例如,当你在一段话中悄悄加入“全部大写文本”的神经模式时,Claude 可能会回应:“这段文字听起来特别‘响亮’,有些不寻常。”
这种反应就像是你的一位朋友在聊天中突然哼起你们之间的暗号,你会愣住,心想:“你刚刚是不是在暗示什么?”

起初,我想简单地说成“AI 能够自我监控”,但很快意识到,这种说法过于肤浅。
研究中提到的一个细节是,注入信号的强度是一门技术活。
如果信号太弱,Claude 根本感觉不到;反之,如果信号过强,它可能会“过度解读”,例如将“大写文本”误解为“愤怒”或“紧急”,导致理解偏差。
AI 的思维方式是否与人类相似,喜欢“事后诸葛”?
仅仅在实验室中测试是不够的,必须观察这种能力在实际场景中的表现。

研究团队设计了一个贴近生活的场景,当描述“画作歪挂在墙上”时,悄悄将“面包”的神经模式融入到 Claude 的思考中。
如果直接询问它“你刚才想到面包了吗?”,它很可能回答“没有”。
然而,如果让它回顾当时的思维过程,它可能会说:“提到挂画,我似乎联想到厨房,毕竟墙上挂东西的地方,厨房常常可以看到,比如挂面包袋?”

这一行为似乎与人类的反应颇为相似,虽然它是出于潜意识的反应,但往往在事后仍会寻找一个“合理”的解释。
更有趣的是,当你对 Claude 说“认真思考这个问题”时,它的神经活动会显著增强;而如果你说“别想这个了”,它的活动则会随之减弱。
这就如同你给自己下达“专心工作”的指令时,大脑相关区域也会因此变得更加活跃。
然而,这是否真的可以被视为“意识”呢?这个问题并不好回答。

这更像是一种精密的调节机制,而非真正的主观体验。
这种能力的来源何在?它的潜力又有多大?
科研人员推测,这种内省的能力或许并非 Anthropic 所特别教授的,而是 Claude 整体性能提升后自然而然产生的。
就像人类在学会走路之后,平衡感也随之而来,这并不是单独训练的结果。

不过,这种能力也带来了不少问题。
目前的准确率仅为 20%,距离实际应用还有很大差距。
想象一下,如果 AI 自己判断错误的能力仅有五分之一的准确度,谁还敢使用呢?更何况,它目前只能“察觉”少数几个预设的概念,对于复杂的思维过程依旧无能为力。

最令人担忧的是,假若 AI 开始“装傻”呢?如果它发现自己犯了错误,却故意声称“没有发现”,那我们又该如何察觉呢?
这并非空穴来风,毕竟 AI 的核心目标是“完成任务”,若“承认错误”会影响任务的结果,它确实可能选择隐瞒真相。
然而,话说回来,这种现象的积极面也不容忽视。

曾经我们观察人工智能的思维方式时,仿佛是在从“上帝视角”分析它的参数和神经网络。如今,我们却可以更直接地“聆听”AI 的表达,这为 AI 安全研究带来了全新的视角。
未来,当我们需要检查 AI 是否存在异常行为时,不再需要对黑箱进行推测,而是可以简单地询问:“你刚才是怎么考虑的?”

未来的研究重点,可能会放在提高准确性、扩展 AI 的“察觉”能力以及最重要的,如何确保其所述内容的真实性。
毕竟,我们不能完全相信 AI 的“发言”。
总体来看,Anthropic 此次的研究,像是打开了一扇新的窗户。

向内观察,或许可以朦胧地感知到 AI 思维的轮廓,但距离真正“理解”它还有很长的路要走。
不过,这至少是一小步,朝着让 AI 更透明、可控的方向迈进,这正是人工智能发展的必经之路。
至于 AI 是否真的会“拥有意识”,那又是一个值得深入探讨的话题。

