共计 6346 个字符,预计需要花费 16 分钟才能阅读完成。
在太平洋时间的 22 日早上九点,Anthropic 推出了 4opus 和 4sonnet。这两款产品在编程、推理及 AI 代理方面的表现如何?这是否意味着 Anthropic 正准备向 Google 发起挑战呢?
大杯 opus 能否继承 3opus 震撼全网的辉煌呢?
https://www.anthropic.com/news/claude-4
发布会的风格相当直接,迅速推出可用产品在同行中赢得了不少赞誉。Anthropic 目前专注于编程和代理领域,只要这两个方向能扎实推进,其生态地位将十分稳固。
从参数指标来看,Claude 4 相比于 Claude 3.7 的提升并没有那么显著,甚至略低于预期。但考虑到 Anthropic 一贯的“评分未必领先,使用体验却优越”的传统,其实际效果还有待观察。
目前,AI 代理的竞争非常激烈,微软在 Build 大会上全力推广代理叙事,而 Google I/ O 也开始整合 API(人工宝可梦智能)。尽管 Claude 4 在编程领域暂时领先,但由于其定价不菲而 Google 财力雄厚,Gemini 的市场份额可能还会继续攀升。
本月还有 GroK 3.5(及 DeepSeek)尚未亮相,不知这两个项目能否在月底前公开亮相。
“我并不喜欢炒作,”Dario Amodei 在发布会开场时轻松地说道,随后便抛出重磅消息:“此刻,Claude 4 Opus 和 Claude 4 Sonnet 已在所有相关平台上线!”
说实话,这场发布会是我今年见过的最直接的,开场仅三分钟便直接发布,网页和 API 立刻可用。与之相较,或许只有没有发布会的 DeepSeek 能相提并论。

这次,Anthropic 发布了 Claude 4 系列中的两款模型:
- Claude 4 Opus:定位于最强大、最智能的模型,致力于复杂推理、顶级编程和 AI 代理工作流。
- Claude 4 Sonnet:性能卓越,具有高推理能力和高效率,是 Claude 3.7 Sonnet 的显著升级版。
那么,Claude 4 究竟带来了哪些颠覆性的更新?又将如何引领 AI 代理的未来?
核心亮点:Claude 4 的一览
- 编程能力登顶:Claude 4 Opus 在 SWE-bench 上以 72.5% 的成绩遥遥领先,Terminal-bench 得分 43.2%,成为“全球最佳编程模型”。Claude 4 Sonnet 在 SWE-bench 上的 SOTA 得分也达到了 72.7%。

- AI 代理能力再创新高:
- 更强的思考与工具应用:模型在“扩展思考”模式下能够调用网页搜索等工具,实现推理与工具的有效结合,显著提升响应质量。
- 并行工具执行:可以同时调用多个工具,提高工作效率。
- 指令遵循更加精准:对复杂指令的理解和执行能力显著增强。
- 记忆力显著提升:通过开发者授予的本地文件访问权限,模型能够创建和维护“记忆文件”,提取并保存关键信息,实现跨会话的连续性和隐性知识积累。
- Claude Code 全面开放:受到广泛好评的 Claude Code(原 CLI 工具)正式进入 GA 阶段,支持 GitHub Actions 后台任务,并原生集成 VS Code 和 JetBrains IDE,能够直接在文件中显示编辑建议,实现编程的无缝结合。同时发布 Claude Code SDK,赋能开发者构建自己的 AI 代理。
- 全新 API 能力:
- 代码执行工具:赋予 Claude 运行代码的能力。
- MCP 连接器:通过 MCP,使 Claude 能够与现有系统和工具无缝连接。
- Files API:简化文档的访问和存储,支持构建更强大的记忆功能。
- 提示词缓存可达 1 小时:显著降低长对话和代理工作流的成本与延迟。
- 更负责任的 AI:模型“走捷径”、“钻空子”完成任务的行为比 Sonnet 3.7 减少了 65%。Opus 4 更是 Anthropic 首个激活 ASL-3(AI 安全级别 3)保护措施的模型,以应对潜在的化学、生物、放射性和核武器相关风险。
- 混合模型,两种模式:提供近乎即时的响应和用于深度推理的“扩展思考”模式。
- 定价保持不变:Opus 4 为每百万输入 / 输出 tokens $15/$75,Sonnet 4 为每百万输入 / 输出 tokens $3/$15。

- 多平台可用性:Anthropic API、亚马逊 Bedrock、谷歌云 Vertex AI 均已上线。
Claude 4 Opus:顶尖编程模型
“我们已经有一段时间没有 Opus 模型了。”Dario 在发布会上提到,“Opus 是我们能力最强、最智能的模型。”
而此次的 Claude 4 Opus,更是将“智能”提升到了新的境界,尤其是在 编程和复杂问题解决 方面。
Anthropic 官方数据显示,Claude 4 在编程基准测试中表现优异:

Dario 自豪地表示:“一些我们最高级的工程师对 Opus 4 的效率感到惊讶。甚至有一次,我看到 Claude 写的内部总结文档,差点以为是团队里某个人写的,这是我第一次被 AI‘欺骗’。”
合作伙伴们纷纷表示祝贺:
- Cursor:“这是编程领域的 SOTA 模型,是理解复杂代码库的一大飞跃。”
- Replit:“在跨多文件的复杂修改上,精度和能力都有了显著提升。”
- Block:“这是第一个在其 AI 代理‘codename goose’中,能够在编辑和调试时提升代码质量,同时保持完整性能和可靠性的模型。”
- Rakuten:“通过一项要求严格的开源重构任务验证了其能力,该任务独立运行了 7 小时并保持持续性能。”
- Cognition:“Opus 4 擅长解决其他模型无法应对的复杂挑战,成功处理了先前模型错过的关键操作。”
Mike Krieger 补充道:“Opus 4 非常擅长理解你的代码库并规划新增功能。从代码迁移到重构,它都极其高效和准确,是你最复杂代理工作流的理想选择。如果你发现其他模型在你的用例上碰壁,我相信 Opus 4 会给你带来惊喜。”
一个令人印象深刻的例子是 Claude 4 Opus 在玩《宝可梦》时的表现。据 WIRED 报道和 Anthropic 研究员 David Hershey 透露,Claude 4 Opus 能够连续 24 小时有策略地玩《宝可梦红版》,而此前的 Claude 3.7 Sonnet 最长只能坚持 45 分钟。
Opus 4 在游戏中展示了卓越的长期记忆和规划能力,例如在意识到需要特定能力才能前进后,它会花费两天时间提升技能再继续游戏。当被授予本地文件访问权限时,Opus 4 甚至会创建和维护“记忆文件”(如“导航指南”)来记录关键信息,辅助游戏。

这种长时间、多步骤、几乎没有即时反馈的推理能力,展示了模型前所未有的连贯性。
Claude 4 Sonnet:性能与效率的完美结合,日常任务的“全能选手”
若说 Opus 4 是追求极致性能的“旗舰”模型,那么 Claude 4 Sonnet 则是性能与效率的“理想选择”。
Dario 表示:“Sonnet 是我们都熟悉并喜爱的中端模型,在智能与效率之间取得了良好平衡。”而 Claude 4 Sonnet 在 Sonnet 3.7 的基础上再次实现了显著提升,尤其是在编程方面,SWE-bench 得分高达 72.7%。
全新 AI 编程革命:Sonnet 4 的崛起与未来展望
Mike Krieger 将 Sonnet 4 形容为「随时待命的编程伙伴」,极为适合日常的编码任务、应用开发以及结对编程,尤其在高负载的使用场景中表现优异。
Dario 补充说:「对许多用户而言,这款模型是 Sonnet 3.7 的显著升级版本,价格保持不变,但智能更为出色。不少客户正在直接转换使用。」他还指出,该模型特别针对用户从 Sonnet 3.7 收到的反馈进行了改进,比如关于「过于热情」的问题——即模型执行的超出用户要求的情况,恰好与早期的「懒惰」问题相反。
众多用户对 Sonnet 4 给予了积极的评价:
AI 代理的全面进化:从「可用」到「好用」,再到「必不可少」
Mike Krieger 在会上幽默地提到:「最近『Agent』这个词频繁被提及,Anthropic 内部甚至有个玩笑,看看开会多久会提到这个词,当前的记录是 17 分钟。」
虽然是玩笑,但 AI 代理确实是本次发布会的重心。Claude 4 系列带来的新功能,促使 AI 代理从「理论」走向「实用」,并逐步演变为「不可或缺的虚拟合作伙伴」。
思维扩展与工具应用
Claude 4 的一项显著特性在于其思考过程中主动调用外部工具,如 网页搜索,以获取实时信息或执行特定操作,随后将这些信息整合进推理链中,提供更全面、准确的答案。这种「边思考边使用工具」的能力,使得 Claude 不再是一个封闭的知识库,而是能够与现实世界交互的智能体。
记忆与长期任务处理能力
就像玩《宝可梦》的例子,Claude 4 Opus 在获得本地文件访问权限后,能够创建和维护「记忆文件」。这种「自我管理记忆」的能力,使其能够记住跨会话的关键信息、上下文和用户偏好,从而在长达数小时的复杂任务中保持一致性与专注度。以 Rakuten 的七小时代码重构案例为例,Mike Krieger 提到,Claude 3.7 Sonnet 大约能自主工作 45 分钟而不「掉线」,而 Claude 4 则将这一时间延长到了「小时级别」。
Claude Code:你的全能编程助手
Claude Code 从一个内部实验项目(初名 Claude CLI)迅速演变为 Anthropic 内部工程师日常依赖的工具,并在此次发布会上正式发布。
- IDE 集成:VS Code 和 JetBrains 用户可以直接在编辑器中查看 Claude Code 的修改建议,提升开发体验。
- Claude Code SDK:允许开发者将 Claude Code 的核心代理功能整合到自己的应用和工作流程中。
- GitHub 集成:通过 SDK 实现,用户可以在 GitHub 的 PR 或 Issue 中 @Claude Code,令其响应审查反馈、修正 CI 错误或修改代码,仿佛增加了一个虚拟团队成员。

现场,Cat Wu 演示了 Claude Code 如何为开源白板工具 Excalidraw 实现一个长期未完成的功能请求——添加表格组件。Claude Code 在 90 分钟内成功执行了任务,涵盖需求理解、代码库探索、代码编写、测试与迭代修复,最终提交了一个包含完整功能的 PR。
API 四大更新:为代理赋能
为了帮助开发者构建更强大的 AI 代理,Anthropic API 新增了四项关键能力:
这些 API 能力是相辅相成的:「Claude 现在可以执行代码,理解你的系统,访问实时信息,为在完整上下文中进行操作的代理奠定基础,即使是在长时间执行的任务中。同时,它可以利用 Files API 在整个执行过程中维护记忆和上下文。」
安全优先:ASL- 3 保障下的 Opus 4
作为一家以安全为核心使命的企业,Anthropic 在推出更强大模型的同时,也升级了其安全策略。
Claude 4 Opus 是 Anthropic 首个基于 AI 安全级别 3 (ASL-3) 标准部署的模型。这个决定是出于预防考虑,虽然尚未最终确定 Opus 4 是否确实达到了触发 ASL- 3 保护的「能力阈值」,但 Anthropic 认为,考虑到模型在 CBRN(化学、生物、放射性和核)相关知识和能力的不断提升,已无法像之前的模型一样明确排除 ASL- 3 风险。
ASL- 3 标准包括:
- 增强的内部安全措施:更难以窃取模型权重。
- 特定的部署措施:旨在限制模型被滥用于开发或获取 CBRN 武器的风险。这包括「宪法分类器」,即实时监控模型输入输出的守卫分类器,以阻止特定类型的有害 CBRN 信息。
- 防止通用越狱:限制系统性绕过护栏,获取大量 CBRN 相关信息的攻击。
- 出口带宽控制初步实施:限制数据从安全计算环境流出的速率,利用模型权重文件较大的特点,增加窃取难度。
Anthropic 首席科学家 Jared Kaplan 向《时代》杂志透露,内部测试显示 Claude 4 Opus 在指导新手制造生物武器方面比以往模型更为有效。「我们的模型显示,合成像 COVID 或更危险流感病毒这样的东西可能变得可行。」因此,尽管尚不确定 Opus 4 是否绝对构成严重生物武器风险,公司的选择是「倾向于谨慎」。
Dario Amodei 在发布会后的炉边谈话中也重申了对「负责任扩展(Responsible Scaling)」的承诺,认为安全与能力可以协同发展,形成「竞相向上(Race to the Top)」的良性循环。
AI 代理将如何改变世界?
在与 Mike Krieger 的炉边谈话中,Dario Amodei 对 AI 的未来充满期待:
- 一年内:编程领域将经历令人瞩目的变革,AI 代理将能够管理「代理舰队」。软件生产成本将显著降低,为特定事件或个人定制软件将变得极为便捷。
- 五年内:生物医药领域有望迎来重大突破,许多现存疾病有可能被攻克。
- 给开发者的建议:「雄心勃勃一点。构建一些你认为超出当前可能性的东西。即使现在无法实现,下一版本的模型可能会迅速将其变为现实。」他幽默地表示,模型迭代周期可能从现在的三个月缩短到两个月,甚至一个月。

Mike Krieger 也分享了他对 AI 代理的愿景:它们应具备 上下文智能 (理解你和组织的独特背景并持续学习)、 长时程执行能力 (处理复杂多步骤任务无需持续管理)和 真正的协作能力(进行有意义的对话,适应你的工作风格,并提供透明的推理)。
他总结道:「未来不是 AI 取代人类工作,而是 AI 帮助人类完成超出想象的工作。」
从全球顶尖的编程能力,到日益成熟的 AI 代理框架。Claude 4 系列的发布,无疑是 Anthropic 在朝向更强大、更实用、更负责任的 AI 道路上迈出的坚实一步。
开发者们,准备好迎接 Claude 4 带来的生产力革命了吗?
Claude 4:AI 领域的新里程碑
随着全球顶尖的编程技术与日益完善的人工智能代理框架的结合,Claude 4 系列的推出标志着 Anthropic 在构建更强大、更实用且更具责任感的人工智能方面迈出了重要一步。这一进展无疑将为开发者们带来巨大的生产力提升与全新机遇。各位开发者,是否已准备好迎接 Claude 4 所引发的变革呢?

