编程界新霸主：Claude 4系列问世，7小时内自动编写代码创下新纪录！

共计 1614 个字符，预计需要花费 5 分钟才能阅读完成。

IT之家在5月23日的最新报道中提到，Anthropic公司于北京时间5月23日凌晨0点30分举行了一场活动，发布了新一代语言模型Claude Opus 4和Claude Sonnet 4。这两个模型在结构化推理、软件开发和自主代理行为等领域实现了显著的进展。

Claude Opus 4：复杂推理与软件开发的卓越之作

根据IT之家引用的博文，Claude Opus 4被认为是Anthropic迄今为止最强大的模型，专门针对复杂推理流程和软件开发场景进行了优化。

测试结果显示，该模型在SWE-bench基准测试中解决真实GitHub问题的准确率高达72.5%；在TerminalBench测试中，模型在多步骤终端代码生成任务中的准确率则为43.2%。

更引人注目的是，Opus 4在软件环境中展现出了卓越的自主行为，这得益于其改进的内存管理、更广泛的上下文保留能力以及更强大的内部规划机制。根据Rakuten的测试数据，该模型可以连续进行近7小时的代码生成与任务执行，创造了AI领域的新纪录，远远超过了前代的Claude 3 Opus（不足1小时）。

Anthropic表示，其AI模型并非旨在取代人类工作，而是作为一种自动化日常工作的工具。然而，marktechpost媒体认为，Claude 4系列的发布将彻底改变AI的应用方式，使AI从单一任务的辅助工具转变为具备更强大和多样化功能的“AI同事”，能够自动执行几乎整个工作班次。

Claude Sonnet 4：性能与成本的完美平衡

Claude Sonnet 4取代了前代的Claude 3.5 Sonnet，以更为稳定的架构提升了速度与质量，同时并未显著增加计算成本。该模型针对中等规模的部署进行了优化，适用于那些需要在成本与性能之间做出权衡的场景。

虽然其推理能力不及Opus 4，但Sonnet 4继承了许多架构上的升级，支持多文件代码导航、中间工具使用以及结构化文本处理，延迟表现更加优秀。它已成为Claude.ai免费用户的默认模型，并通过API提供服务，适合轻量级开发工具、用户助手和分析流程等应用。

技术亮点与部署方式

这两款模型均具备混合推理能力，提供“快速模式”用于低延迟的简短对话任务，以及“扩展思考模式”用于需要深度推理和多轮代理行为的复杂任务。

这种双模式的策略使得用户可以根据任务的复杂性灵活分配计算资源。此外，Claude Opus 4和Sonnet 4可通过Anthropic的Claude API、Amazon Bedrock和Google Cloud Vertex AI等多个云平台进行访问，支持从自主代理到代码分析等多种企业应用场景。

编程界新霸主：Claude 4 系列问世，7 小时内自动编写代码创下新纪录！