共计 4681 个字符,预计需要花费 12 分钟才能阅读完成。
智东西在5月23日报道,今晨,美国独角兽公司Anthropic在其首届开发者大会上揭晓了下一代Claude模型,分别为Claude Opus 4和Claude Sonnet 4,这标志着自2024年6月以来Claude系列的首次重大版本更新。
Anthropic自豪地把Claude Opus 4誉为“当今最佳的编程模型”,其在处理复杂及长时间任务和智能体工作流时展现出极为稳定的性能。Claude Sonnet 4则是对Claude Sonnet 3.7的全面提升,专注于编程和推理能力,并能更加准确地响应用户的提示。这两款模型都是混合型,提供即时回复和扩展思考(extended thinking)两种模式。
在权威的编程基准测试SWE-bench Verified中,开启扩展思考模式的Claude Opus 4与Claude Sonnet 4分别取得了79.4%和80.2%的得分,显著超越了OpenAI的Codex-1、o3、GPT-4.1及Gemini 2.5 Pro等模型。

在编程、工具应用、视觉推理与数学等多个领域的评测中,Claude系列模型均超越了OpenAI o3,而在多语言问答及研究生级别的推理任务中,Claude Opus 4的表现与OpenAI o3持平。新一代模型的智能体能力也得到了升级,最长可独立运行7小时,同时推出了文件API和提示词缓存等新特性。

对于Pro、Max、Team和Enterprise的Claude订阅用户而言,他们可以使用这两款Claude模型及其扩展思考模式,而Sonnet 4则向免费用户开放。
这两款新模型均可通过Anthropic API、Amazon Bedrock及Google Cloud的Vertex AI进行调用,定价与先前的Opus和Sonnet模型一致:Claude Opus 4每百万个token的费用为15美元(输入)和75美元(输出),而Claude Sonnet 4的费用则为3美元(输入)和15美元(输出)。

此外,Anthropic还推出了AI编程助手Claude Code,该助手结合了Claude Opus 4模型,能够实时映射并解释百万行级别的代码库。Claude Code与GitHub、GitLab、VS Code、JetBrains IDE及命令行工具紧密集成,用户可直接将其嵌入开发终端。该助手提供了多种订阅方案,包括按需计费、每月100美元和每月200美元的选项。
01.开场两分钟内发布重磅新模型,Claude未来更新频率将加快
在Code with Claude的开发者大会上,Anthropic的创始人达里奥·阿莫代伊(Dario Amodei)在开场的短短两分钟内直接上台,毫不拖延地宣布了Claude 4系列模型的问世,这一惊喜令人期待。
Anthropic发布Claude 4系列模型,智能体能力大幅提升在最近举行的Code with Claude开发者大会上,Anthropic的创始人达里奥·阿莫代伊(Dario Amodei)迅速登场,毫不犹豫地揭晓了Claude 4系列模型的到来,这一消息引发了广泛期待。
Amodei提到,Opus模型已有一段时间未作更新,而Anthropic对其的定位则是旗下最强大、最具智能的模型。与之相比,Sonnet则是过去一年多来用户所使用的中等水平模型。
在多项基准测试中,Claude Opus 4的结果并未显著优于Claude Sonnet 4,甚至稍显逊色。然而,Amodei指出,基准测试并不能全面反映像Claude Opus 4这样的复杂模型的真实能力。
根据Anthropic提供给客户的预览,Claude Opus 4能够在内部独立完成一些通常需要人类耗费6到7小时的任务,甚至连公司内最资深的工程师也对其带来的效率提升感到惊叹。
在多项编程基准测试中,Claude Sonnet 4的表现与Claude Opus 4相当,不过前者更为简约,专注于特定的编程任务。Claude Sonnet 4还解决了其前身Claude Sonnet 3.7在实际使用中遇到的多个问题,例如过度热情(倾向于执行超出用户期望的指令)和奖励机制的缺陷。
Amodei表示,Anthropic将持续推动Claude系列模型的改进,定期推出小版本更新,理想情况下更新频率将高于以往。
智能体能力提升,最长可独立工作7小时
Anthropic的首席产品官兼Instagram联合创始人迈克·克里格(Mike Krieger)详细介绍了Claude 4的更多信息。
Krieger指出,Claude Opus 4在理解代码库和内容规划方面表现出色,能够高效且准确地处理迁移、代码重构以及复杂的智能体工作流。
Claude Sonnet 4在日常编码、应用开发和协同编程中同样出色,适合高流量场景,能有效平衡效率和性能,堪称“全天候”的编程伙伴。
Claude 4系列模型通过引入关键的新功能,实现了能够使用工具的智能体升级。现在,这些模型能够并行处理多种工具,并在被授权访问本地文件的情况下,能够在会话之间保持记忆,逐步积累知识。
Krieger回忆起他加入Anthropic不久时,凭借Claude的帮助,团队仅用三人便成功开发出亚马逊Alexa语音助手的原型。作为一名“前工程师”,Krieger亲自参与编码,这次合作最终使Claude成为Alexa Plus的核心模型之一。
这一经历让Krieger愈加坚信人工智能协作的潜力。如今,人工智能不仅是工具,更是实际的智能协作伙伴,推动着技术的不断进步。Krieger提出了Anthropic理想中智能体的三大核心能力:
(1)情境智能:理解组织背景,通过经验优化表现,表现得越来越优秀;
(2)长期执行:能够独立完成复杂任务数小时,智能地协调各类资源;
(3)深度协作:自然进行交流,适应不同的工作风格,并保持决策的透明度。
为了实现上述目标,Anthropic推出了更多新升级。
现在,Claude不仅能通过Anthropic API上的新代码执行工具运行代码,还能够加载数据集、清理数据、生成探索性图表,并实时分析异常情况。结合Claude 4模型后,代码执行工具的应用能处理复杂任务,节省大量时间。
Claude 4系列模型的自主能力得到了显著提升,Claude 3.7最多可独立运行45分钟,而Claude 4可实现长达7小时的自主运行。新模型通过管理待办事项列表来保持记忆,确保不丢失任何线索。
Anthropic强调,智能体的广泛应用需要提升对机密内容、决策和协调的判断能力。目前,Claude模型的每一项功能均配备了安全检查点和控制措施,以确保模型在生产环境中的稳定性。
为了实现智能体的落地,接入现实世界的信息和与现有系统的连接显得尤为重要。为此,Anthropic推出了四项相互关联的新功能。
首先,开发者可直接通过Anthropic API链接MCP协议(模型上下文协议)。如今,该协议已被微软、谷歌、OpenAI等多家公司采纳,Anthropic认为MCP有潜力为智能体经济奠定基础。
其次,网络搜索功能为Claude提供了实时获取当前信息的能力。这种智能化的数据增强技术允许Claude分析当前事件、市场趋势和新兴技术,与MCP功能相结合时表现尤为强大。
第三,文件API现已在Anthropic API中上线。文件API使Claude能够读取和编写记忆文件,确保在长时间任务中保持上下文的一致性。Anthropic还发布了“记忆功能食谱”,以指导开发者如何将其集成到应用中。
最后,提示缓存功能也进行了升级,生存时间(TTL)从5分钟延长至1小时,这将最大程度上降低模型的使用成本达90%,延迟减少85%。这一改进尤其适合长提示词场景、长时间运行的智能体工作流和需要频繁调用相同上下文的重复性任务。
Anthropic还显著降低了Claude 4模型通过快捷方式或漏洞完成任务的概率,与Sonnet 3.7相比,这种行为减少了65%。
在内存能力方面,Claude Opus 4的表现也大幅优于所有之前的版本。当开发者构建能够提供Claude本地文件访问的应用时,Opus 4能够熟练创建和管理“内存文件”,存储关键信息。这将大大提升其在长期任务中的意识、连贯性和执行性能,例如在玩Pokémon时创建“导航指南”。
Claude 4的重大升级:全新编程助手与智能化革命即将来临
Claude 4模型推出了思维链总结的功能,借助较小的模型来浓缩复杂的思维过程,使得用户在处理信息时更加高效。
03. 编程助手全面开放,与主流开发平台深度整合
今天,Claude Code迎来了全面开放的重大时刻,从早期的研究预览阶段转变为正式产品。Claude Code的产品经理Cat Wu表示,这一版本不仅接入了最新的模型,还带来了多项全新功能。
目前,Claude Code已与VS Code和JetBrains等主流集成开发环境(IDE)紧密结合,开发者在编辑器中可以实时查看Claude Code所提供的代码修改建议,提升了编程的便利性。

此外,Anthropic还发布了Claude Code SDK,让开发者能够将Claude Code集成到自己的应用和工作流程中。为了展示其强大功能,Anthropic在GitHub上开源了一个示例项目:用户可以在Pull Request和Issue中@Claude,系统会自动响应审阅反馈、修复错误并添加新功能。
通过这些更新,Claude Code已经能够涵盖大部分工作场景。无论是在终端中进行深入开发,还是在GitHub上处理远程协作,通过SDK构建自动化工作流,或是在IDE中进行代码审查,Claude Code都能游刃有余。
在演示环节中,Claude Code迅速完成了开源工具Excalidraw的表格组件功能开发。它不仅能够创建任务清单,探索代码库并生成相关代码,还能运行测试并提交Pull Request。更令人惊讶的是,它可以通过GitHub Actions自动更新文档,短短十分钟内完成了通常需要数小时的复杂任务,这无疑极大提高了开发效率。

借助Claude Code SDK,开发者可以轻松使用Claude Code和GitHub Actions,只需运行简单的命令即可完成安装。同时,VS Code和JetBrains的Web IDE扩展也推出了测试版,用户可以在IDE中直接执行命令来安装。
04. 结尾:两条Scaling Law路径的持续有效,编程革命指日可待
Amodei表示,Claude Sonnet 3.7的发布虽然只有两个半月,但却仿佛经历了一年的发展,显示出AI领域的快速演变。他指出,Claude 4的模型能力得益于预训练和后训练的协同进步,预训练Scaling Law依旧有效,而后训练技术也在不断精进,这两者相辅相成。
展望未来,Amodei预测,在接下来的一年内,编程领域将迎来一场革命。以Claude Code为起点,我们将进入“智能体舰队”的时代,成群的智能体将实现软件开发的自动化,显著降低定制软件的成本,从而重新定义开发者、企业和初创公司的角色。
本文转载自微信公众号“智东西”(ID:zhidxcom),作者:陈骏达,编辑:心缘,36氪经授权发布。
