共计 4480 个字符,预计需要花费 12 分钟才能阅读完成。
智东西在 5 月 23 日报道,今天凌晨,美国知名的 AI 公司 Anthropic 在其首届开发者大会上正式推出了新一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4,这是自 2024 年 6 月以来 Claude 系列首次进行重要版本更新。
Anthropic 自豪地称 Claude Opus 4 为“全球最优秀的编程模型”,它在处理复杂和持续性任务时,展现出卓越的稳定性。与此同时,Claude Sonnet 4 作为 Claude Sonnet 3.7 的重大改进,着重提升了编程和推理的能力,并能更准确地响应用户的指令。这两款模型均采用混合设计,支持即时回复和更深入思考的扩展模式(extended thinking)。
在权威的编程基准测试 SWE-bench Verified 中,启用扩展思考的 Claude Opus 4 和 Claude Sonnet 4 分别获得了 79.4% 和 80.2% 的得分,明显超越了 OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1 以及 Gemini 2.5 Pro 等竞争对手。

在编程、工具操作、视觉推理及数学等多个领域的基准测试中,这两款模型均超越了 OpenAI o3,而在多语言问答和研究生水平的推理任务上,Claude Opus 4 的表现与 OpenAI o3 相当。新版本的智能体能力得到了提升,最长可连续运行达 7 小时 ,并引入了 文件 API、提示词缓存 等新特性。

对于 Pro、Max、Team 和 Enterprise 的 Claude 订阅用户,以上两款 Claude 模型及其扩展思考功能均可使用,而 Sonnet 4 则面向免费用户开放。
这两款模型可通过 Anthropic API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 进行调用,定价与之前的 Opus 和 Sonnet 模型相当:Claude Opus 4 的费用为每百万个 token 15 美元 /75 美元(输入 / 输出),Claude Sonnet 4 的定价则为 3 美元 /15 美元。

此外,Anthropic 还同期推出了 AI 编程助手 Claude Code,该助手基于 Claude Opus 4 模型,能够实时映射和解析百万行的代码库。Claude Code 与 GitHub、GitLab、VS Code、JetBrains IDE 以及命令行工具无缝集成,可以直接嵌入开发环境中。该编程助手提供按需计费的选项以及每月 100 美元和 200 美元的两种订阅方案。
01. 开场仅 2 分钟便揭晓重磅新模型,Claude 未来更新将加快
在 Code with Claude 开发者大会上,Anthropic 创始人 Dario Amodei 在开场的短短 2 分钟内迅速登台,毫不做任何铺垫,便直接宣布了重大惊喜——Claude 4 系列模型的推出。
Claude 4 系列模型发布,智能体能力大幅提升
Amodei 表示,Anthropic 在 Opus 模型上已有一段时间未进行更新,其被视为公司内部最强大、最智能的模型,而 Sonnet 则是用户过去一年多以来使用的中等水平模型。
Claude Opus 4 在多项基准测试中的表现并未显著超越 Claude Sonnet 4,甚至略显逊色。Amodei 特别指出,基准测试并不能充分反映 Claude Opus 4 作为大型模型的实际能力。
在 Anthropic 提供的客户预览中,Claude Opus 4 能够自主完成一些通常需要人类花费 6 到 7 小时的任务,公司的资深工程师们对此次生产力提升感到惊讶。
在编程基准测试中,Claude Sonnet 4 与 Claude Opus 4 的表现相当,但 Sonnet 4 更为精简,专注于编程等特定任务。此外,Claude Sonnet 4 还 解决了其前身 Claude Sonnet 3.7 在实际应用中存在的诸多问题,例如过度热情和奖励机制的缺陷。
Amodei 承诺,Anthropic 将持续对 Claude 系列模型进行改进,定期发布小版本更新,理想情况下将提高发布频率。
智能体能力实现升级,最长可独立运行 7 小时
Anthropic 的首席产品官、Instagram 的联合创始人 Mike Krieger 深入分享了 Claude 4 的更多细节。
Krieger 指出,Claude Opus 4 在理解代码库和规划新增内容方面表现卓越,能够高效且准确地处理从 代码迁移、重构到复杂智能体工作流 的任务。
在日常编码、应用程序开发和配对编程方面,Claude Sonnet 4 同样表现不俗,适用于高流量应用场合,兼顾效率与性能,成为理想的“全天候”编码伙伴。
Claude 4 系列模型在构建能够使用工具的智能体时,新增了关键功能。如今,Claude 4 可以同时处理多种工具,且在获得访问本地文件的权限后,能够在会话间保持记忆,随着时间的推移不断积累知识。
Krieger 回忆起他加入 Anthropic 不久,利用 Claude 的帮助,团队仅由三人便成功打造了亚马逊 Alexa 语音助手的原型。Krieger 作为“前工程师”,亲自参与编码,这次合作最终使 Claude 成为 Alexa Plus 的核心模型之一。
这段经历使 Krieger 更加坚信 AI 协作的潜力。现今,AI 不仅仅是工具,更是智能的协作伙伴,持续推动技术的边界。Krieger 提出了 Anthropic 理想智能体应具备的三大核心能力:
(1)情境智能:理解组织背景,通过经验不断优化表现,像优秀员工一样逐步提升;
(2)长期执行:能独立处理复杂任务数小时,智能协调资源;
(3)深度协作:自然交互,适应工作风格,保持决策透明。
为实现这些能力,Anthropic 推出了更多新升级功能。
Claude 现在可以通过 Anthropic API 上的新代码执行工具运行代码,不仅限于编写代码,还能加载数据集、清理数据、生成探索性图表,并实时分析异常情况。与 Claude 4 模型结合后,代码执行工具可以高效完成复杂任务,节省大量时间。
Claude 4 系列模型的自主性显著增强,Claude 3.7 最多可自主运行 45 分钟,而 Claude 4 则可以独立运行数小时,最长达到 7 小时。新模型通过管理待办事项列表保持记忆,确保不会丢失任何线索。
Anthropic 强调,智能体的广泛应用需要提升模型对保密内容、决策和协调的判断能力。如今,Claude 模型的每一项功能都包含架构安全检查点和控制措施,确保在生产环境中的可靠性。
智能体的实际应用还需接入现实世界的信息,与现有系统相连接。为此,Anthropic 推出了四项相互关联的新功能。
首先,开发者现在可以通过 Anthropic API 直接连接 MCP 协议(模型上下文协议)。这一协议目前被微软、谷歌、OpenAI、Block、Atlassian、Zapier 和 Linear 等多家公司使用,Anthropic 认为 MCP 有望为智能体经济奠定基础。
其次,网络搜索 为 Claude 提供了对当前信息的实时访问。这种智能数据增强功能,允许 Claude 分析当前事件、市场趋势和新兴技术,与 MCP 功能结合时尤为强大。
第三,文件 API现已在 Anthropic API 中上线,允许 Claude 读取和写入记忆文件,保证在长时间任务中上下文的连续性。同时,Anthropic 还发布了“记忆功能食谱”,指导开发者如何将其集成到应用中。
最后,提示缓存功能也迎来升级,TTL(生存时间)从 5 分钟提升至 1 小时,这最高可以将模型的使用成本降低 90%,延迟减少 85%,特别适用于长提示词场景、长期运行的智能体工作流,以及需要频繁调用相同上下文的重复性任务。
Anthropic 还显著降低了 Claude 4 模型使用快捷方式或漏洞完成任务的可能性。与 Sonnet 3.7 相比,这种行为的可能性降低了 65%。
Claude Opus 4 在内存能力方面的表现也大幅优于以往所有型号。开发人员在构建支持 Claude 本地文件访问的应用程序时,Opus 4 能够熟练地创建和维护“内存文件”,以存储关键信息。这将解锁更好的长期任务意识、连贯性以及代理任务的性能,例如,Opus 4 在玩 Pokémon 时能够创建“导航指南”。

Claude 4 模型新增加了思维链总结的功能,能够利用较小的模型来精简复杂的思维过程。
03. 编程助手全面开放,整合至主流开发平台
Claude Code 今天正式推出,结束了研究预览阶段,转为正式产品。Claude Code 的产品经理 Cat Wu 表示,除了接入最新的模型外,还引入了多项新功能。
Claude Code 现已与VS Code 和 JetBrains 等主流集成开发环境整合,开发者在使用时可以实时查看 Claude Code 建议的代码修改,直接在编辑器中进行操作。

此外,Anthropic 推出了 Claude Code SDK,使开发者能够将 Claude Code 整合进他们的应用和工作流程中。为了展示其潜力,Anthropic 在 GitHub 上开源了一个示例项目:用户可以在 Pull Request 和 Issue 中标记 Claude,它会自动回应审阅建议、修复缺陷和添加新功能。
通过这些更新,Claude Code 已经可以覆盖绝大多数工作场景,无论是在终端上进行深入开发、在 GitHub 上进行远程协作,还是通过 SDK 创建自动化工作流程,甚至是在 IDE 中进行代码审核。
在一场演示中,Claude Code 迅速完成了开源工具 Excalidraw 的表格组件功能开发。Claude Code 能够制定任务清单,探索代码库并生成相应代码,执行测试并提交 Pull Request。它还可以通过 GitHub Actions 自动更新文档。在短短 10 分钟内,Claude Code 完成了通常需要数小时才能完成的复杂任务,大幅提升了开发效率。

Claude Code SDK 的推出使得 Claude Code 和 GitHub Actions 现已可用,用户只需运行命令即可完成安装。同时,VS Code 与 JetBrains 的 Web IDE 扩展也推出了测试版,用户在 IDE 中运行命令即可进行安装。
04. 结语:两条 Scaling Law 路径持续有效,未来 1 年将见证编程革命
Amodei 指出,Claude Sonnet 3.7 的发布虽然仅有两个半月,但其发展速度令人惊叹,仿佛经历了一整年。他强调,Claude 4 的模型能力源于预训练与后训练的共同进步,预训练 Scaling Law 依然有效,同时后训练技术也在不断进步,两者相辅相成。
展望未来,Amodei 认为在接下来的一年,我们将见证编程领域的重大变革。基于 Claude Code 的进展,智能化的代理将进入“智能体舰队”时代,成群的智能体将实现软件开发的自动化,极大降低定制软件的成本,这将彻底改变开发者、企业和初创公司的角色。
本文由微信公众号“智东西”(ID:zhidxcom)发布,作者:陈骏达,编辑:心缘,内容经 36 氪授权转载。

