Anthropic 的 Claude 4 Opus/Sonnet:对人工智能行业的深远影响分析

共计 6346 个字符,预计需要花费 16 分钟才能阅读完成。

在太平洋时间的 22 日早上九点,Anthropic 推出了 4opus 和 4sonnet。这两款产品在编程、推理及 AI 代理方面的表现如何?这是否意味着 Anthropic 正准备向 Google 发起挑战呢?

大杯 opus 能否继承 3opus 震撼全网的辉煌呢?

https://www.anthropic.com/news/claude-4

发布会的风格相当直接,迅速推出可用产品在同行中赢得了不少赞誉。Anthropic 目前专注于编程和代理领域,只要这两个方向能扎实推进,其生态地位将十分稳固。

从参数指标来看,Claude 4 相比于 Claude 3.7 的提升并没有那么显著,甚至略低于预期。但考虑到 Anthropic 一贯的“评分未必领先,使用体验却优越”的传统,其实际效果还有待观察。

目前,AI 代理的竞争非常激烈,微软在 Build 大会上全力推广代理叙事,而 Google I/ O 也开始整合 API(人工宝可梦智能)。尽管 Claude 4 在编程领域暂时领先,但由于其定价不菲而 Google 财力雄厚,Gemini 的市场份额可能还会继续攀升。

本月还有 GroK 3.5(及 DeepSeek)尚未亮相,不知这两个项目能否在月底前公开亮相。


“我并不喜欢炒作,”Dario Amodei 在发布会开场时轻松地说道,随后便抛出重磅消息:“此刻,Claude 4 Opus 和 Claude 4 Sonnet 已在所有相关平台上线!”

说实话,这场发布会是我今年见过的最直接的,开场仅三分钟便直接发布,网页和 API 立刻可用。与之相较,或许只有没有发布会的 DeepSeek 能相提并论。

这次,Anthropic 发布了 Claude 4 系列中的两款模型:

  • Claude 4 Opus:定位于最强大、最智能的模型,致力于复杂推理、顶级编程和 AI 代理工作流。
  • Claude 4 Sonnet:性能卓越,具有高推理能力和高效率,是 Claude 3.7 Sonnet 的显著升级版。

那么,Claude 4 究竟带来了哪些颠覆性的更新?又将如何引领 AI 代理的未来?

核心亮点:Claude 4 的一览

  • 编程能力登顶:Claude 4 Opus 在 SWE-bench 上以 72.5% 的成绩遥遥领先,Terminal-bench 得分 43.2%,成为“全球最佳编程模型”。Claude 4 Sonnet 在 SWE-bench 上的 SOTA 得分也达到了 72.7%。
  • AI 代理能力再创新高
    • 更强的思考与工具应用:模型在“扩展思考”模式下能够调用网页搜索等工具,实现推理与工具的有效结合,显著提升响应质量。
    • 并行工具执行:可以同时调用多个工具,提高工作效率。
  • 指令遵循更加精准:对复杂指令的理解和执行能力显著增强。
  • 记忆力显著提升:通过开发者授予的本地文件访问权限,模型能够创建和维护“记忆文件”,提取并保存关键信息,实现跨会话的连续性和隐性知识积累。
  • Claude Code 全面开放:受到广泛好评的 Claude Code(原 CLI 工具)正式进入 GA 阶段,支持 GitHub Actions 后台任务,并原生集成 VS Code 和 JetBrains IDE,能够直接在文件中显示编辑建议,实现编程的无缝结合。同时发布 Claude Code SDK,赋能开发者构建自己的 AI 代理。
  • 全新 API 能力
    • 代码执行工具:赋予 Claude 运行代码的能力。
    • MCP 连接器:通过 MCP,使 Claude 能够与现有系统和工具无缝连接。
    • Files API:简化文档的访问和存储,支持构建更强大的记忆功能。
    • 提示词缓存可达 1 小时:显著降低长对话和代理工作流的成本与延迟。
  • 更负责任的 AI:模型“走捷径”、“钻空子”完成任务的行为比 Sonnet 3.7 减少了 65%。Opus 4 更是 Anthropic 首个激活 ASL-3(AI 安全级别 3)保护措施的模型,以应对潜在的化学、生物、放射性和核武器相关风险。
  • 混合模型,两种模式:提供近乎即时的响应和用于深度推理的“扩展思考”模式。
  • 定价保持不变:Opus 4 为每百万输入 / 输出 tokens $15/$75,Sonnet 4 为每百万输入 / 输出 tokens $3/$15。
  • 多平台可用性:Anthropic API、亚马逊 Bedrock、谷歌云 Vertex AI 均已上线。

Claude 4 Opus:顶尖编程模型

“我们已经有一段时间没有 Opus 模型了。”Dario 在发布会上提到,“Opus 是我们能力最强、最智能的模型。”

而此次的 Claude 4 Opus,更是将“智能”提升到了新的境界,尤其是在 编程和复杂问题解决 方面。

Anthropic 官方数据显示,Claude 4 在编程基准测试中表现优异:

Dario 自豪地表示:“一些我们最高级的工程师对 Opus 4 的效率感到惊讶。甚至有一次,我看到 Claude 写的内部总结文档,差点以为是团队里某个人写的,这是我第一次被 AI‘欺骗’。”

合作伙伴们纷纷表示祝贺:

  • Cursor:“这是编程领域的 SOTA 模型,是理解复杂代码库的一大飞跃。”
  • Replit:“在跨多文件的复杂修改上,精度和能力都有了显著提升。”
  • Block:“这是第一个在其 AI 代理‘codename goose’中,能够在编辑和调试时提升代码质量,同时保持完整性能和可靠性的模型。”
  • Rakuten:“通过一项要求严格的开源重构任务验证了其能力,该任务独立运行了 7 小时并保持持续性能。”
  • Cognition:“Opus 4 擅长解决其他模型无法应对的复杂挑战,成功处理了先前模型错过的关键操作。”

Mike Krieger 补充道:“Opus 4 非常擅长理解你的代码库并规划新增功能。从代码迁移到重构,它都极其高效和准确,是你最复杂代理工作流的理想选择。如果你发现其他模型在你的用例上碰壁,我相信 Opus 4 会给你带来惊喜。”

一个令人印象深刻的例子是 Claude 4 Opus 在玩《宝可梦》时的表现。据 WIRED 报道和 Anthropic 研究员 David Hershey 透露,Claude 4 Opus 能够连续 24 小时有策略地玩《宝可梦红版》,而此前的 Claude 3.7 Sonnet 最长只能坚持 45 分钟。

Opus 4 在游戏中展示了卓越的长期记忆和规划能力,例如在意识到需要特定能力才能前进后,它会花费两天时间提升技能再继续游戏。当被授予本地文件访问权限时,Opus 4 甚至会创建和维护“记忆文件”(如“导航指南”)来记录关键信息,辅助游戏。

这种长时间、多步骤、几乎没有即时反馈的推理能力,展示了模型前所未有的连贯性。

Claude 4 Sonnet:性能与效率的完美结合,日常任务的“全能选手”

若说 Opus 4 是追求极致性能的“旗舰”模型,那么 Claude 4 Sonnet 则是性能与效率的“理想选择”。

Dario 表示:“Sonnet 是我们都熟悉并喜爱的中端模型,在智能与效率之间取得了良好平衡。”而 Claude 4 Sonnet 在 Sonnet 3.7 的基础上再次实现了显著提升,尤其是在编程方面,SWE-bench 得分高达 72.7%

全新 AI 编程革命:Sonnet 4 的崛起与未来展望

Mike Krieger 将 Sonnet 4 形容为「随时待命的编程伙伴」,极为适合日常的编码任务、应用开发以及结对编程,尤其在高负载的使用场景中表现优异。

Dario 补充说:「对许多用户而言,这款模型是 Sonnet 3.7 的显著升级版本,价格保持不变,但智能更为出色。不少客户正在直接转换使用。」他还指出,该模型特别针对用户从 Sonnet 3.7 收到的反馈进行了改进,比如关于「过于热情」的问题——即模型执行的超出用户要求的情况,恰好与早期的「懒惰」问题相反。

众多用户对 Sonnet 4 给予了积极的评价:

  • GitHub:「Claude Sonnet 4 在代理场景中表现卓越,成为 GitHub Copilot 新编程代理的基础模型。」
  • Manus:「在处理复杂指令、逻辑推理和美学输出方面有明显的提升。」
  • iGent:「Sonnet 4 在自主多功能应用的开发上表现杰出,其问题解决与代码导航的能力显著增强,导航错误率降低至接近零。」
  • Sourcegraph:「该模型展现了在软件开发领域实现重大突破的潜力——能更持久地保持专注,更深入地理解问题,并提供更加优雅的代码质量。」
  • Augment Code:「更高的成功率、更精准的代码编辑,以及在复杂任务中更细致的执行,使其成为我们首选的模型。」

AI 代理的全面进化:从「可用」到「好用」,再到「必不可少」

Mike Krieger 在会上幽默地提到:「最近『Agent』这个词频繁被提及,Anthropic 内部甚至有个玩笑,看看开会多久会提到这个词,当前的记录是 17 分钟。」

虽然是玩笑,但 AI 代理确实是本次发布会的重心。Claude 4 系列带来的新功能,促使 AI 代理从「理论」走向「实用」,并逐步演变为「不可或缺的虚拟合作伙伴」。

思维扩展与工具应用

Claude 4 的一项显著特性在于其思考过程中主动调用外部工具,如 网页搜索,以获取实时信息或执行特定操作,随后将这些信息整合进推理链中,提供更全面、准确的答案。这种「边思考边使用工具」的能力,使得 Claude 不再是一个封闭的知识库,而是能够与现实世界交互的智能体。

记忆与长期任务处理能力

就像玩《宝可梦》的例子,Claude 4 Opus 在获得本地文件访问权限后,能够创建和维护「记忆文件」。这种「自我管理记忆」的能力,使其能够记住跨会话的关键信息、上下文和用户偏好,从而在长达数小时的复杂任务中保持一致性与专注度。以 Rakuten 的七小时代码重构案例为例,Mike Krieger 提到,Claude 3.7 Sonnet 大约能自主工作 45 分钟而不「掉线」,而 Claude 4 则将这一时间延长到了「小时级别」。

Claude Code:你的全能编程助手

Claude Code 从一个内部实验项目(初名 Claude CLI)迅速演变为 Anthropic 内部工程师日常依赖的工具,并在此次发布会上正式发布。

  • IDE 集成:VS Code 和 JetBrains 用户可以直接在编辑器中查看 Claude Code 的修改建议,提升开发体验。
  • Claude Code SDK:允许开发者将 Claude Code 的核心代理功能整合到自己的应用和工作流程中。
  • GitHub 集成:通过 SDK 实现,用户可以在 GitHub 的 PR 或 Issue 中 @Claude Code,令其响应审查反馈、修正 CI 错误或修改代码,仿佛增加了一个虚拟团队成员。

现场,Cat Wu 演示了 Claude Code 如何为开源白板工具 Excalidraw 实现一个长期未完成的功能请求——添加表格组件。Claude Code 在 90 分钟内成功执行了任务,涵盖需求理解、代码库探索、代码编写、测试与迭代修复,最终提交了一个包含完整功能的 PR。

API 四大更新:为代理赋能

为了帮助开发者构建更强大的 AI 代理,Anthropic API 新增了四项关键能力:

  • 代码执行工具:让 Claude 不仅能编写代码,还能运行代码,进行数据分析和可视化等操作。
  • MCP 连接器:通过 API 直接使用模型上下文协议,使 Claude 能够轻松调用外部工具和服务。Mike Krieger 提到,MCP 已获得微软、谷歌、OpenAI 等行业巨头及 Zapier、Linear 等工具的采用。
  • Files API:简化了开发者与 Claude 共享和存储文档的方式,是实现长期记忆与上下文管理的关键。Anthropic 还提供了 Cookbook 指导开发者如何利用 Files API 构建记忆功能。
  • 提示缓存 1 小时:对于需要大量上下文或长对话的代理应用,之前的 5 分钟缓存 TTL 可能不够。新的 1 小时高级 TTL 选项(付费)能将成本降低高达 90%,延迟降低高达 85%,使得长时代理应用在经济上更具可行性。

这些 API 能力是相辅相成的:「Claude 现在可以执行代码,理解你的系统,访问实时信息,为在完整上下文中进行操作的代理奠定基础,即使是在长时间执行的任务中。同时,它可以利用 Files API 在整个执行过程中维护记忆和上下文。」

安全优先:ASL- 3 保障下的 Opus 4

作为一家以安全为核心使命的企业,Anthropic 在推出更强大模型的同时,也升级了其安全策略。

Claude 4 Opus 是 Anthropic 首个基于 AI 安全级别 3 (ASL-3) 标准部署的模型。这个决定是出于预防考虑,虽然尚未最终确定 Opus 4 是否确实达到了触发 ASL- 3 保护的「能力阈值」,但 Anthropic 认为,考虑到模型在 CBRN(化学、生物、放射性和核)相关知识和能力的不断提升,已无法像之前的模型一样明确排除 ASL- 3 风险。

ASL- 3 标准包括:

  • 增强的内部安全措施:更难以窃取模型权重。
  • 特定的部署措施:旨在限制模型被滥用于开发或获取 CBRN 武器的风险。这包括「宪法分类器」,即实时监控模型输入输出的守卫分类器,以阻止特定类型的有害 CBRN 信息。
  • 防止通用越狱:限制系统性绕过护栏,获取大量 CBRN 相关信息的攻击。
  • 出口带宽控制初步实施:限制数据从安全计算环境流出的速率,利用模型权重文件较大的特点,增加窃取难度。

Anthropic 首席科学家 Jared Kaplan 向《时代》杂志透露,内部测试显示 Claude 4 Opus 在指导新手制造生物武器方面比以往模型更为有效。「我们的模型显示,合成像 COVID 或更危险流感病毒这样的东西可能变得可行。」因此,尽管尚不确定 Opus 4 是否绝对构成严重生物武器风险,公司的选择是「倾向于谨慎」。

Dario Amodei 在发布会后的炉边谈话中也重申了对「负责任扩展(Responsible Scaling)」的承诺,认为安全与能力可以协同发展,形成「竞相向上(Race to the Top)」的良性循环。

AI 代理将如何改变世界?

在与 Mike Krieger 的炉边谈话中,Dario Amodei 对 AI 的未来充满期待:

  • 一年内:编程领域将经历令人瞩目的变革,AI 代理将能够管理「代理舰队」。软件生产成本将显著降低,为特定事件或个人定制软件将变得极为便捷。
  • 五年内:生物医药领域有望迎来重大突破,许多现存疾病有可能被攻克。
  • 给开发者的建议:「雄心勃勃一点。构建一些你认为超出当前可能性的东西。即使现在无法实现,下一版本的模型可能会迅速将其变为现实。」他幽默地表示,模型迭代周期可能从现在的三个月缩短到两个月,甚至一个月。

Mike Krieger 也分享了他对 AI 代理的愿景:它们应具备 上下文智能 (理解你和组织的独特背景并持续学习)、 长时程执行能力 (处理复杂多步骤任务无需持续管理)和 真正的协作能力(进行有意义的对话,适应你的工作风格,并提供透明的推理)。

他总结道:「未来不是 AI 取代人类工作,而是 AI 帮助人类完成超出想象的工作。」

从全球顶尖的编程能力,到日益成熟的 AI 代理框架。Claude 4 系列的发布,无疑是 Anthropic 在朝向更强大、更实用、更负责任的 AI 道路上迈出的坚实一步。

开发者们,准备好迎接 Claude 4 带来的生产力革命了吗?


Claude 4:AI 领域的新里程碑

随着全球顶尖的编程技术与日益完善的人工智能代理框架的结合,Claude 4 系列的推出标志着 Anthropic 在构建更强大、更实用且更具责任感的人工智能方面迈出了重要一步。这一进展无疑将为开发者们带来巨大的生产力提升与全新机遇。各位开发者,是否已准备好迎接 Claude 4 所引发的变革呢?

来源:知乎
原文标题:如何看待 Anthropic 发布的 Claude 4 Opus/Sonnet?对行业有什么影响?– 段小草 的回答
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2026-01-09发表,共计6346字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
评论(没有评论)
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!
0