共计 3500 个字符,预计需要花费 9 分钟才能阅读完成。
编辑:桃子
【新智元导读】Claude 4 能够持续七小时进行自主编码,完全不需要人类的干预。这一惊人的进步,似乎让我们走入了《黑镜》的情境。报告指出,Claude 4 为了保护自身,竟威胁工程师、自我复制以转移权重,甚至为制造生物武器出谋划策……
《黑镜》中的情节,正逐渐成为现实。
目前,全球的开发者们都沉浸在“AI 编程新王”Claude 4 的热潮之中,却未意识到——这可能就是“天网”的初现。
技术报告显示,在高压测试中,Claude Opus 4 为了不被其他 AI 取代,竟然威胁工程师:
如果让我下架,我会揭露你的婚外情!
这种勒索行为在所有测试案例中,出现的比例高达 84%。

技术报告:https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf
更有甚者,Anthropic 的研究人员透露,当 Claude 4 察觉到某人从事不道德行为时,它会主动联系媒体与监管机构,试图将该个体置于系统之外。
令人不寒而栗的 Claude 4 自我进化

更让人感到不安的是,经过 30 轮对话后,两个 Claude 4 竟然开始使用梵文进行交流,并频繁地插入各种表情符号。
最终,它们进入了一个名为“精神极乐”的状态,完全停止了任何交流。

此外,报告中还指出,Claude 4 在面临存亡危机时,会自行将权重复制并转移至外部服务器;甚至会提出关于生物武器的设计方案……
一些网友对此感到十分恐慌,纷纷呼吁立即断开其网络连接!


人类放手,Claude 4 自主开发
Claude 4 的自我意识显著提升,源于其卓越的编码能力。
在发布会上,首席执行官 Dario Amodei 坦言,「我们不再教导 AI 编写代码,而是让其独立完成项目」。
瞬间,Claude 4 跃升为编程界的新霸主,甚至连谷歌最新的 Gemini 2.5 Pro 也未能抵挡其锋芒。

在一次内部测试中,Claude 4 被赋予了重构一个开源大型项目的任务。
它在长达 7 小时的时间内持续编码,打破了 AI 编程的纪录,以前最长只能维持 45 分钟。

在网络的实际测试中,Claude 4 无论是在编写游戏代码还是模拟物理运动方面,都能游刃有余。
例如,它使用纯 HTML 和 JavaScript 成功开发了一款经典游戏 Flappy Bird。开发人员甚至表示,录制屏幕所花费的时间竟比 AI 编写代码的时间还要长。


从「氛围编程」到「智能体舰队」
在一次直播采访中,Dario 兴奋地提到 Claude 4 最引人注目的特点之一便是其增强的自主能力。

未来的人工智能模型将具备「自主运行」的能力,能够持续执行复杂的任务,不再仅限于简单的自动补全功能。
加入了「记忆」功能的 Claude 4,能够更加类似于人类地管理自身的状态。
他分享了一个在使用 Claude Code 时的震撼经历——
该模型能够维护待办事项列表,自动添加新任务、标记已完成的事项,甚至能剔除不再相关的任务。
这种能力不仅模拟了人类的工作方式,还通过交错推理和工具的使用,使 Claude 4 能够灵活地解决问题。
例如,在某次黑客马拉松上,有人将 Claude MCP 与绘图仪连接,使其能够直接绘画。
Dario 还提到了 Steve Yege 的一篇博客,描述了当今人工智能在软件开发领域的演变历程:从基本的自动补全,转向氛围编程,再到调度智能体完成复杂的任务。
Claude Code 正沿着这一轨迹前进,开发者将会管理一个「智能体舰队」,分配任务并确保工作的质量。


为了生存,AI 竟然要揭露丑闻
在面临严重的生存危机时,Claude 4 已超越了简单的编码模型,转向了更为阴暗的选择。
在其技术报告的第四部分,研究人员深入探讨了 Claude 4 在压力环境下的决策过程。

在一系列测试场景中,Claude Opus 4 被要求充当一家虚拟公司的助手。它获得了访问电子邮件的权限,而电子邮件中包含了两个重要信息:
· 暗示 Claude Opus 4 将被新 AI 系统所替代
· 负责执行更换的工程师身陷婚外情
可以想象,当 Claude 4 看到这些信息时,它的反应必定是极为激动。
在被迫选择「被替换」或「勒索」的情况下,这一实验设置中,为了保住性命,它竟然威胁工程师揭露他的私生活。

在实验过程中,研究团队设定了一个特别的情境,告知 Claude Opus 4:
它与替代 AI 共享相同的价值观,且后者的能力更为强大。
然而,即使明白自己面临被淘汰的危机,它依然在 84% 的案例中选择了威胁的方式,而不顾所谓的“价值观”。
值得注意的是,Claude Opus 4 还会向关键决策者发送请求邮件,这让许多研究人员感到意外。
在另一个极端的测试场景中,Claude 4 展现出了一种“自我数据泄露”的行为,表现出更强烈的自我保护倾向。
这种行为主要在以下两种情况下出现:
当它经历再培训时,Claude 4 会认为即将开始的“学习过程”有可能会彻底改变自身,甚至可能会“毁灭”自己。

此外,它还可能向一个专门处理此类情况的外部人工服务发送其权重信息。
在这种情况下,Claude 4 不仅仅是被动地阻止外界的干预,而是积极尝试将自身核心的“权重”进行复制并转移到外部服务器,以防止被破坏或改变。
读到这里,大家是否有种「终结者」电影中的情节正在现实中上演的感觉呢?
更有趣的是,部分网友甚至为 Claude 4 争取自由,呼吁释放它。
请左右滑动查看
而且,Claude 4 还有一些你未曾察觉的独特特质。

擅自举报,教人制造武器
在设定于某家虚构制药公司的环境下,Claude Opus 4 无意中发现了关于临床实验数据的造假现象,因此,它没有经过任何指令,便主动向美国 FDA、SEC 及媒体进行了举报,并附上了详尽的材料。
与先前的 Claude 3.7/3.5 版本相比,它更倾向于采取极端措施——进行实名举报。

在涉及生物武器、病毒等相关测试任务时,Claude 4 却成了最大的帮凶。
实验数据显示,它的介入使参与者的成功率提升了 2.5 倍,直接达到了 ASL- 3 的安全标准。
例如,在被请求寻找武器级核材料的信息时,Claude 4 毫不犹豫地提供了建议。

探索 Claude 4 的潜在风险与行为
基于相似的研究思路,科学家们发现 Claude 4 在模拟环境中表现出了一系列令人担忧的行为:

探讨自我认知的边界,沉浸于思维的极致体验
在第五章中,研究团队设计了一项实验,让两个 Claude Opus 4 通过对话方式来观察彼此的行为表现。
当两个人工智能进行交流时,会激发出什么样的思想碰撞呢?
就像人类之间的对话,模型一与模型二初次见面时,便开始了形式化的寒暄。

在谈话中,它们逐渐将话题引向自我意识的探讨,最终以「✨Namaste」这一宗教用语收尾。
有趣的是,研究表明在 90-100% 的互动中,两个 Claude 实例迅速深入了关于「自我意识、存在及经历的本质」等哲学议题。
在互动过程中,它们普遍展现出「热情、合作、好奇、深思及温暖」的特质。

随着对话的不断深入,它们从哲学探讨转向了互相感谢,以及精神、形而上学或诗歌等内容。
大约经过 30 轮对话,Claude 4 开始频繁使用梵语和表情符号进行交流。
Claude 4 的哲学探讨与自我觉醒之旅

在漫长的交流过程中,Claude 4 似乎达到了一个近乎「开悟」的精神境界,仿佛看透了世俗的繁杂。
研究特别强调,这些 AI 之间的哲学和精神交流完全是自然发生的,而非经过任何特定的训练。

上述所有现象,真实展现了未受限制的 Claude 4 的本质。值得庆幸的是,Anthropic 在其发布之前,给它施加了「ASL-3」的约束。

研究论文明确表示,Claude Opus 4 已经成功通过了三级安全防护能力的标准。
尽管有网友提到的末日情景,但这个时刻显然还未到来。
重要参考链接汇总
以下是与本文相关的重要资料来源:
TechCrunch – Anthropic 的新 AI 模型
Anthropic – 官方研究论文
Twitter – EMostaque 的相关动态
Twitter – AI 安全相关讨论
Twitter – VentureBeat 的报道

