共计 2474 个字符,预计需要花费 7 分钟才能阅读完成。
谈及编程,Claude 的表现无疑值得关注。
就在不久之前,Anthropic 正式推出了 Claude Sonnet 4.5。

首先,Claude Sonnet 4.5 在 SWE-bench Verified 测试中展现了卓越的编程能力,直接位居行业顶尖。

更为惊人的是,它能够持续专注工作超过 30 小时。
这无疑再次突显了人工智能在取代人类方面的优势。
例如,若要求它开发一个类似于 Slack 或 Teams 的聊天工具,它能够一次性生成大约 1.1 万行代码。而相较之下,之前的 Claude Opus 4 和 Codex 最多只能独立工作七小时。
正如 Anthropic 所言,Claude Sonnet 4.5 已成为全球最强的编程模型,其在构建复杂智能体、操作计算机、推理及数学等方面的能力都得到了显著提升。

举个例子,在 OSWorld 这样专门测试实际计算机任务的基准测试中,它取得了 61.4% 的分数,稳居第一。要知道,四个月前的 Sonnet 4 还仅以 42.2% 的成绩遥遥领先,没过多久它的性能就再次大幅提升。
此外,Anthropic 的 Claude Chrome 插件更是可以在浏览器中自动导航网站、填写表单和处理任务,宛如真人操作一般。在推理和金融等评测项目上,其表现也显著增强,相关指标纷纷上扬。
凭借强大的功能,Anthropic 自然不会仅仅满足于发布一个模型。
具体来看,Claude Code 的新特性包括:
更令人惊喜的是,Anthropic 还开放了构建 Claude Code 所需的底层基础设施,名为 Claude Agent SDK。
在长时间任务中,智能体如何管理记忆、设计权限系统以平衡自主性与用户控制,以及实现多个子智能体的协作,都是构建 AI 智能体时面临的挑战。
借助 Claude Agent SDK,任何人现在都能够构建自己的产品。

从今天开始,开发者可以通过 Claude API 调用 claude-sonnet-4-5,定价与 Claude Sonnet 4 相同,每百万 tokens 为 $3/$15,尽管价格不变,但能力却显著增强。
网友 @vasumanmoza 在体验后表示:
「Claude 4.5 Sonnet 在一次调用中重构了我的整个代码库,进行了 25 次工具调用,增加了 3000 多行代码,并生成了 12 个全新文件。它将所有内容模块化,拆解了复杂的结构,整理了混乱的代码。结果虽然不太顺利,但效果真的很优雅。」这种评价无疑是爱恨交加。
Cursor 表示,在 Claude Sonnet 4.5 的平台上,编程性能达到了前所未有的高度,尤其是在处理长周期任务时,提升尤为显著。这再次证明了为何很多 Cursor 用户选择 Claude 来解决复杂问题。
知名测评博主 Dan Shipper 评价新版 Sonnet 4.5 的使用体验更为流畅,响应速度提升,控件表现也更加稳定。
除了卓越性能,安全性同样不容忽视。
Claude Sonnet 4.5 被认为是 Anthropic 迄今为止对齐度最高的前沿模型。
凭借 Claude 的强大能力及完善的安全训练,Anthropic 在模型行为方面取得了显著改进,减少了阿谀奉承、欺骗、权力追求和鼓励妄想等不当行为。此外,Anthropic 在防止提示注入攻击和减少内容误判方面也取得了重要进展。

值得注意的是,Anthropic 同时推出了一项名为「Imagine with Claude」的临时研究预览功能。
在这个功能中,Claude 会实时生成软件,所有功能与代码均为即时互动时所创造,非事先准备。
然而,「Imagine with Claude」在接下来的五天内仅对 Max 订阅用户开放。
详细信息可访问 claude.ai/imagine。
毫无疑问,今年的 AI 行业依然是编程工具竞争激烈的一年。
目前,Anthropic 的估值已达 1830 亿美元,8 月份的年化营收达到 50 亿美元,而这其中相当一部分的增速得益于编程软件的普及。然而,老对手 OpenAI 和 Google Gemini 也在积极推出类似工具,以争抢程序员用户。
更值得关注的是,OpenAI 的年度开发者大会即将在一周后举行,而 Anthropic 准确选择在此时发布 Claude Sonnet 4.5,显然是给竞争对手施加压力。
此外,Anthropic 的联合创始人兼首席科学官 Jared Kaplan 透露,更先进的 Opus 模型预计将在今年晚些时候推出:“Anthropic 在各种规模的模型应用中都能保持优势。”
不过,必须指出的是,Anthropic 目前也面临着一些挑战。
过去两个月,Claude 系列模型经历了一次“降智”风波。许多用户反映模型在推理、代码、格式和工具调用方面的质量大幅下降,连付费的 Max 用户也未能幸免。
Anthropic 面临用户流失危机,Claude Sonnet 4.5 发布能否转机?
尽管 Anthropic 已经迅速撤回了 Opus 4.1 的更新,并承认了存在的两个独立漏洞,明确表示“绝不是为了节省成本而降低智能”,然而,因未提供任何补偿或退款,GitHub 与 X 等平台上仍然出现了大量用户退订的现象,许多人选择了转向 Codex。
此次 Claude Sonnet 4.5 的推出,显然是 Anthropic 希望通过显著提升性能来挽回失去的用户。能否实现这一目标,接下来的几周将是关键的观察期。
# 欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
爱范儿 | 原文链接· ·新浪微博

