Anthropic 的 Claude 4 Opus/Sonnet：对人工智能行业的深远影响分析

共计 6346 个字符，预计需要花费 16 分钟才能阅读完成。

在太平洋时间的 22 日早上九点，Anthropic 推出了 4opus 和 4sonnet。这两款产品在编程、推理及 AI 代理方面的表现如何？这是否意味着 Anthropic 正准备向 Google 发起挑战呢？

大杯 opus 能否继承 3opus 震撼全网的辉煌呢？

https://www.anthropic.com/news/claude-4

发布会的风格相当直接，迅速推出可用产品在同行中赢得了不少赞誉。Anthropic 目前专注于编程和代理领域，只要这两个方向能扎实推进，其生态地位将十分稳固。

从参数指标来看，Claude 4 相比于 Claude 3.7 的提升并没有那么显著，甚至略低于预期。但考虑到 Anthropic 一贯的“评分未必领先，使用体验却优越”的传统，其实际效果还有待观察。

目前，AI 代理的竞争非常激烈，微软在 Build 大会上全力推广代理叙事，而 Google I/ O 也开始整合 API（人工宝可梦智能）。尽管 Claude 4 在编程领域暂时领先，但由于其定价不菲而 Google 财力雄厚，Gemini 的市场份额可能还会继续攀升。

本月还有 GroK 3.5（及 DeepSeek）尚未亮相，不知这两个项目能否在月底前公开亮相。

“我并不喜欢炒作，”Dario Amodei 在发布会开场时轻松地说道，随后便抛出重磅消息：“此刻，Claude 4 Opus 和 Claude 4 Sonnet 已在所有相关平台上线！”

说实话，这场发布会是我今年见过的最直接的，开场仅三分钟便直接发布，网页和 API 立刻可用。与之相较，或许只有没有发布会的 DeepSeek 能相提并论。

这次，Anthropic 发布了 Claude 4 系列中的两款模型：

Claude 4 Opus：定位于最强大、最智能的模型，致力于复杂推理、顶级编程和 AI 代理工作流。
Claude 4 Sonnet：性能卓越，具有高推理能力和高效率，是 Claude 3.7 Sonnet 的显著升级版。

那么，Claude 4 究竟带来了哪些颠覆性的更新？又将如何引领 AI 代理的未来？

编程能力登顶：Claude 4 Opus 在 SWE-bench 上以 72.5% 的成绩遥遥领先，Terminal-bench 得分 43.2%，成为“全球最佳编程模型”。Claude 4 Sonnet 在 SWE-bench 上的 SOTA 得分也达到了 72.7%。

AI 代理能力再创新高：

更强的思考与工具应用：模型在“扩展思考”模式下能够调用网页搜索等工具，实现推理与工具的有效结合，显著提升响应质量。
并行工具执行：可以同时调用多个工具，提高工作效率。

指令遵循更加精准：对复杂指令的理解和执行能力显著增强。
记忆力显著提升：通过开发者授予的本地文件访问权限，模型能够创建和维护“记忆文件”，提取并保存关键信息，实现跨会话的连续性和隐性知识积累。
Claude Code 全面开放：受到广泛好评的 Claude Code（原 CLI 工具）正式进入 GA 阶段，支持 GitHub Actions 后台任务，并原生集成 VS Code 和 JetBrains IDE，能够直接在文件中显示编辑建议，实现编程的无缝结合。同时发布 Claude Code SDK，赋能开发者构建自己的 AI 代理。
全新 API 能力：

代码执行工具：赋予 Claude 运行代码的能力。
MCP 连接器：通过 MCP，使 Claude 能够与现有系统和工具无缝连接。
Files API：简化文档的访问和存储，支持构建更强大的记忆功能。
提示词缓存可达 1 小时：显著降低长对话和代理工作流的成本与延迟。

更负责任的 AI：模型“走捷径”、“钻空子”完成任务的行为比 Sonnet 3.7 减少了 65%。Opus 4 更是 Anthropic 首个激活 ASL-3（AI 安全级别 3）保护措施的模型，以应对潜在的化学、生物、放射性和核武器相关风险。
混合模型，两种模式：提供近乎即时的响应和用于深度推理的“扩展思考”模式。
定价保持不变：Opus 4 为每百万输入 / 输出 tokens $15/$75，Sonnet 4 为每百万输入 / 输出 tokens $3/$15。

多平台可用性：Anthropic API、亚马逊 Bedrock、谷歌云 Vertex AI 均已上线。

“我们已经有一段时间没有 Opus 模型了。”Dario 在发布会上提到，“Opus 是我们能力最强、最智能的模型。”

而此次的 Claude 4 Opus，更是将“智能”提升到了新的境界，尤其是在 编程和复杂问题解决 方面。

Anthropic 官方数据显示，Claude 4 在编程基准测试中表现优异：

Dario 自豪地表示：“一些我们最高级的工程师对 Opus 4 的效率感到惊讶。甚至有一次，我看到 Claude 写的内部总结文档，差点以为是团队里某个人写的，这是我第一次被 AI‘欺骗’。”

合作伙伴们纷纷表示祝贺：

Cursor：“这是编程领域的 SOTA 模型，是理解复杂代码库的一大飞跃。”
Replit：“在跨多文件的复杂修改上，精度和能力都有了显著提升。”
Block：“这是第一个在其 AI 代理‘codename goose’中，能够在编辑和调试时提升代码质量，同时保持完整性能和可靠性的模型。”
Rakuten：“通过一项要求严格的开源重构任务验证了其能力，该任务独立运行了 7 小时并保持持续性能。”
Cognition：“Opus 4 擅长解决其他模型无法应对的复杂挑战，成功处理了先前模型错过的关键操作。”

Mike Krieger 补充道：“Opus 4 非常擅长理解你的代码库并规划新增功能。从代码迁移到重构，它都极其高效和准确，是你最复杂代理工作流的理想选择。如果你发现其他模型在你的用例上碰壁，我相信 Opus 4 会给你带来惊喜。”

一个令人印象深刻的例子是 Claude 4 Opus 在玩《宝可梦》时的表现。据 WIRED 报道和 Anthropic 研究员 David Hershey 透露，Claude 4 Opus 能够连续 24 小时有策略地玩《宝可梦红版》，而此前的 Claude 3.7 Sonnet 最长只能坚持 45 分钟。

Opus 4 在游戏中展示了卓越的长期记忆和规划能力，例如在意识到需要特定能力才能前进后，它会花费两天时间提升技能再继续游戏。当被授予本地文件访问权限时，Opus 4 甚至会创建和维护“记忆文件”（如“导航指南”）来记录关键信息，辅助游戏。

这种长时间、多步骤、几乎没有即时反馈的推理能力，展示了模型前所未有的连贯性。

若说 Opus 4 是追求极致性能的“旗舰”模型，那么 Claude 4 Sonnet 则是性能与效率的“理想选择”。

Dario 表示：“Sonnet 是我们都熟悉并喜爱的中端模型，在智能与效率之间取得了良好平衡。”而 Claude 4 Sonnet 在 Sonnet 3.7 的基础上再次实现了显著提升，尤其是在编程方面，SWE-bench 得分高达 72.7%。

全新 AI 编程革命：Sonnet 4 的崛起与未来展望

Mike Krieger 将 Sonnet 4 形容为「随时待命的编程伙伴」，极为适合日常的编码任务、应用开发以及结对编程，尤其在高负载的使用场景中表现优异。

Dario 补充说：「对许多用户而言，这款模型是 Sonnet 3.7 的显著升级版本，价格保持不变，但智能更为出色。不少客户正在直接转换使用。」他还指出，该模型特别针对用户从 Sonnet 3.7 收到的反馈进行了改进，比如关于「过于热情」的问题——即模型执行的超出用户要求的情况，恰好与早期的「懒惰」问题相反。

众多用户对 Sonnet 4 给予了积极的评价：

GitHub：「Claude Sonnet 4 在代理场景中表现卓越，成为 GitHub Copilot 新编程代理的基础模型。」
Manus：「在处理复杂指令、逻辑推理和美学输出方面有明显的提升。」
iGent：「Sonnet 4 在自主多功能应用的开发上表现杰出，其问题解决与代码导航的能力显著增强，导航错误率降低至接近零。」
Sourcegraph：「该模型展现了在软件开发领域实现重大突破的潜力——能更持久地保持专注，更深入地理解问题，并提供更加优雅的代码质量。」
Augment Code：「更高的成功率、更精准的代码编辑，以及在复杂任务中更细致的执行，使其成为我们首选的模型。」

Mike Krieger 在会上幽默地提到：「最近『Agent』这个词频繁被提及，Anthropic 内部甚至有个玩笑，看看开会多久会提到这个词，当前的记录是 17 分钟。」

虽然是玩笑，但 AI 代理确实是本次发布会的重心。Claude 4 系列带来的新功能，促使 AI 代理从「理论」走向「实用」，并逐步演变为「不可或缺的虚拟合作伙伴」。

Claude 4 的一项显著特性在于其思考过程中主动调用外部工具，如 网页搜索，以获取实时信息或执行特定操作，随后将这些信息整合进推理链中，提供更全面、准确的答案。这种「边思考边使用工具」的能力，使得 Claude 不再是一个封闭的知识库，而是能够与现实世界交互的智能体。

就像玩《宝可梦》的例子，Claude 4 Opus 在获得本地文件访问权限后，能够创建和维护「记忆文件」。这种「自我管理记忆」的能力，使其能够记住跨会话的关键信息、上下文和用户偏好，从而在长达数小时的复杂任务中保持一致性与专注度。以 Rakuten 的七小时代码重构案例为例，Mike Krieger 提到，Claude 3.7 Sonnet 大约能自主工作 45 分钟而不「掉线」，而 Claude 4 则将这一时间延长到了「小时级别」。

Claude Code 从一个内部实验项目（初名 Claude CLI）迅速演变为 Anthropic 内部工程师日常依赖的工具，并在此次发布会上正式发布。

IDE 集成：VS Code 和 JetBrains 用户可以直接在编辑器中查看 Claude Code 的修改建议，提升开发体验。
Claude Code SDK：允许开发者将 Claude Code 的核心代理功能整合到自己的应用和工作流程中。
GitHub 集成：通过 SDK 实现，用户可以在 GitHub 的 PR 或 Issue 中 @Claude Code，令其响应审查反馈、修正 CI 错误或修改代码，仿佛增加了一个虚拟团队成员。

现场，Cat Wu 演示了 Claude Code 如何为开源白板工具 Excalidraw 实现一个长期未完成的功能请求——添加表格组件。Claude Code 在 90 分钟内成功执行了任务，涵盖需求理解、代码库探索、代码编写、测试与迭代修复，最终提交了一个包含完整功能的 PR。

为了帮助开发者构建更强大的 AI 代理，Anthropic API 新增了四项关键能力：

代码执行工具：让 Claude 不仅能编写代码，还能运行代码，进行数据分析和可视化等操作。
MCP 连接器：通过 API 直接使用模型上下文协议，使 Claude 能够轻松调用外部工具和服务。Mike Krieger 提到，MCP 已获得微软、谷歌、OpenAI 等行业巨头及 Zapier、Linear 等工具的采用。
Files API：简化了开发者与 Claude 共享和存储文档的方式，是实现长期记忆与上下文管理的关键。Anthropic 还提供了 Cookbook 指导开发者如何利用 Files API 构建记忆功能。
提示缓存 1 小时：对于需要大量上下文或长对话的代理应用，之前的 5 分钟缓存 TTL 可能不够。新的 1 小时高级 TTL 选项（付费）能将成本降低高达 90%，延迟降低高达 85%，使得长时代理应用在经济上更具可行性。

这些 API 能力是相辅相成的：「Claude 现在可以执行代码，理解你的系统，访问实时信息，为在完整上下文中进行操作的代理奠定基础，即使是在长时间执行的任务中。同时，它可以利用 Files API 在整个执行过程中维护记忆和上下文。」

作为一家以安全为核心使命的企业，Anthropic 在推出更强大模型的同时，也升级了其安全策略。

Claude 4 Opus 是 Anthropic 首个基于 AI 安全级别 3 (ASL-3) 标准部署的模型。这个决定是出于预防考虑，虽然尚未最终确定 Opus 4 是否确实达到了触发 ASL- 3 保护的「能力阈值」，但 Anthropic 认为，考虑到模型在 CBRN（化学、生物、放射性和核）相关知识和能力的不断提升，已无法像之前的模型一样明确排除 ASL- 3 风险。

ASL- 3 标准包括：

增强的内部安全措施：更难以窃取模型权重。
特定的部署措施：旨在限制模型被滥用于开发或获取 CBRN 武器的风险。这包括「宪法分类器」，即实时监控模型输入输出的守卫分类器，以阻止特定类型的有害 CBRN 信息。
防止通用越狱：限制系统性绕过护栏，获取大量 CBRN 相关信息的攻击。
出口带宽控制初步实施：限制数据从安全计算环境流出的速率，利用模型权重文件较大的特点，增加窃取难度。

Anthropic 首席科学家 Jared Kaplan 向《时代》杂志透露，内部测试显示 Claude 4 Opus 在指导新手制造生物武器方面比以往模型更为有效。「我们的模型显示，合成像 COVID 或更危险流感病毒这样的东西可能变得可行。」因此，尽管尚不确定 Opus 4 是否绝对构成严重生物武器风险，公司的选择是「倾向于谨慎」。

Dario Amodei 在发布会后的炉边谈话中也重申了对「负责任扩展（Responsible Scaling）」的承诺，认为安全与能力可以协同发展，形成「竞相向上（Race to the Top）」的良性循环。

在与 Mike Krieger 的炉边谈话中，Dario Amodei 对 AI 的未来充满期待：

一年内：编程领域将经历令人瞩目的变革，AI 代理将能够管理「代理舰队」。软件生产成本将显著降低，为特定事件或个人定制软件将变得极为便捷。
五年内：生物医药领域有望迎来重大突破，许多现存疾病有可能被攻克。
给开发者的建议：「雄心勃勃一点。构建一些你认为超出当前可能性的东西。即使现在无法实现，下一版本的模型可能会迅速将其变为现实。」他幽默地表示，模型迭代周期可能从现在的三个月缩短到两个月，甚至一个月。

Mike Krieger 也分享了他对 AI 代理的愿景：它们应具备 上下文智能 （理解你和组织的独特背景并持续学习）、 长时程执行能力 （处理复杂多步骤任务无需持续管理）和 真正的协作能力（进行有意义的对话，适应你的工作风格，并提供透明的推理）。

他总结道：「未来不是 AI 取代人类工作，而是 AI 帮助人类完成超出想象的工作。」

从全球顶尖的编程能力，到日益成熟的 AI 代理框架。Claude 4 系列的发布，无疑是 Anthropic 在朝向更强大、更实用、更负责任的 AI 道路上迈出的坚实一步。

开发者们，准备好迎接 Claude 4 带来的生产力革命了吗？

Claude 4：AI 领域的新里程碑

随着全球顶尖的编程技术与日益完善的人工智能代理框架的结合，Claude 4 系列的推出标志着 Anthropic 在构建更强大、更实用且更具责任感的人工智能方面迈出了重要一步。这一进展无疑将为开发者们带来巨大的生产力提升与全新机遇。各位开发者，是否已准备好迎接 Claude 4 所引发的变革呢？

来源：知乎

原文标题：如何看待 Anthropic 发布的 Claude 4 Opus/Sonnet？对行业有什么影响？– 段小草的回答

原文链接：https://www.zhihu.com/question/1908930156669691558/answer/1909073895920767941

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完