全新Claude 4系列模型发布,宣称成为“全球最佳”AI编程助手!

共计 2942 个字符,预计需要花费 8 分钟才能阅读完成。

在5月22日的开发者大会上,Anthropic正式发布了其全新一代Claude模型系列:Claude Opus 4与Claude Sonnet 4。公司在公告中自信地指出,Claude Opus 4是“全球最佳编程模型”,它在编程、高级推理以及AI智能体(AI agents)方面设立了新的标杆,特别适合处理复杂的长期任务和智能工作流程。同时,Claude Sonnet 4作为对Claude Sonnet 3.7的显著提升,亦在编程和推理能力上实现了重要进展。

根据Anthropic的说法,Claude Opus 4是迄今为止公司最为强大的模型,尤其在编码表现上尤为突出。根据其提供的数据,Opus 4在SWE-bench(用于评估真实软件工程任务的基准)上达到了72.5%的准确率(并行测试时可高达79.4%),而在Terminal-bench(测试AI模型在终端环境中编码能力的基准)上则达到了43.2%(并行测试时可达50.0%)。这些数据均超越了包括Gemini 2.5 Pro在内的其他竞争模型。Claude Sonnet 4的表现同样不容小觑,在SWE-bench上取得了72.7%的准确率(并行测试时可达80.2%),在某些特定配置下甚至略超Opus 4。

图丨基准测试结果(

一些早期的测试用户在社交平台上分享了他们的使用体验,进一步印证了Claude 4的强大性能。

例如,著名AI博主Ethan Mollick只用一句简洁的提示:“the book Piranesi as a p5js 3d space. do it for me”(将《皮拉内西》这本书转化为p5.js的3D空间,帮我实现),Claude 4便生成了一个令人印象深刻的3D空间演示,展示了鸟、水和光照效果,效果十分出众。

还有用户通过一次简单的提示就成功生成了复杂的双摆模拟系统,表现相当不俗。

另一位知名博主Peter Yang获得了早期的访问权限,他总结道:“1. 在写作和编辑方面,它依然是同类中的佼佼者。2. 它的编码能力与Gemini 2.5不相上下。”他还展示了Claude 4一次性构建了一个完整的俄罗斯方块游戏。

图丨相关推文(

Claude 4:打破智能体局限的新纪元

除了在编码领域表现出色,Claude 新一代模型在推理及 AI 智能体功能方面也取得了显著进展。Anthropic 最近推出了“工具使用下的扩展思考”测试版,这一新功能使得两个模型在扩展思考的过程中可以借助工具(例如网络搜索),从而在推理与工具使用之间灵活切换,以提升其响应的准确度。

此外,新模型还具备并行使用多个工具的能力,能够更精准地执行指令。当开发者授权访问本地文件时,该模型的记忆能力显著增强,能够提取和存储重要信息,以确保任务的连续性并逐步积累隐性知识。

Anthropic 特别强调,新版本模型在减少使用“捷径”或“漏洞”完成任务方面表现优异。与 Sonnet 3.7 相比,Opus 4 和 Sonnet 4 在这类易受影响的智能体任务中,这种行为的发生概率降低了 65%。

图丨Claude 4 Sonnet 消除了 Sonnet 3.7 过于冗长和过于热衷于实现功能的倾向(

Claude 4 系列的一大亮点就是其记忆能力的显著提升。Anthropic 的首席产品官 Mike Krieger 在接受 WIRED 采访时指出,Claude Opus 4 可以在《宝可梦》游戏中以智能体的身份持续工作长达 24 小时,而之前的模型最长只能运行 45 分钟。为了展示其能力,Anthropic 还进行了名为“Claude Plays Pokémon”的Twitch 直播,展示了 Claude 3.7 Sonnet 在游戏中的表现。

图丨Opus 4 在玩宝可梦时记下的真实笔记(

在此基础上,Claude 4 Opus 进一步提升了其在复杂任务中的导航能力。研究人员观察到该模型在游戏中执行复杂任务时,其长期记忆和规划能力得到了显著改善。例如,当 AI 发现自己需要特定技能才能继续时,它会花费两天的时间来提升这些技能,随后再重返游戏。这种无需即时反馈的多步骤推理能力,反映了模型在任务连贯性和目标跟踪方面的进步。

Anthropic 的研究员 David Hershey 解释道,这项研究意在探讨 Claude 如何作为智能体独立完成复杂任务。当开发者构建允许 Claude 访问本地文件的应用时,Opus 4 能够灵活地创建和维护“记忆文件”,以存储关键信息。这种能力促成了更好的长期任务感知、连贯性以及智能体的任务性能。就像 Opus 4 在玩《宝可梦》时创建的“导航指南”,这对于需要长时间保持上下文的 AI 智能体至关重要,无论是自动化数小时的工作流,还是进行大规模代码重构。Krieger 还提到,一位早期客户(日本乐天)曾让该模型连续工作 7 小时,顺利完成一项大型代码重构任务。

新一代Claude 4模型发布,推动智能体发展

在定价方面,Claude 4 模型与其前辈保持一致:Opus 4 的输入费用为每百万token 15美元,输出费用为每百万token 75美元;而Sonnet 4 的输入费用为每百万token 3美元,输出费用为每百万token 15美元。这两种模型均支持扩展思考模式的切换。值得一提的是,Sonnet 4 将继续向免费用户开放,而 Opus 4 则需要用户进行付费订阅。

随着新模型的推出,Anthropic还宣布Claude Code(于今年2月首次发布)经过几个月的预览测试后正式对外提供。Claude Code的目标是将Claude的强大功能更广泛地融入开发者的工作流程中,无论是在终端、喜爱的开发环境,还是通过Claude Code SDK在后台运行。针对VS Code和JetBrains的新测试版扩展能够将Claude Code直接集成到IDE中,Claude所提供的编辑建议会以内嵌的方式呈现在文件中,这大大简化了在熟悉的编辑器界面中的审查和跟踪流程。

此外,Anthropic还推出了一个可扩展的Claude Code SDK,允许开发者基于Claude Code的核心智能体构建他们自己的智能体和应用程序。

在Anthropic的API中,还新增了四项功能,旨在帮助开发者创建更强大的AI智能体,包括:代码执行工具、MCP连接器、文件API以及提示缓存最长可达一小时的能力。

Anthropic表示,“这些模型标志着向虚拟协作者迈出了重要一步——它们能保持完整的上下文,持续关注更长时间的项目,并产生深远的影响。”回顾近期谷歌、OpenAI和Anthropic等AI行业巨头的成果,大家都在为这一目标而努力。

参考资料:

1.https://www.anthropic.com/news/claude-4

2.https://igent.ai/sonnet4eval.pdf

3.https://www.wired.com/story/anthropic-new-model-launch-claude-4/

排版:溪树

来源:今日头条
原文标题:Claude 4系列模型正式发布,号称“世界上最好的”AI编程模型 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-11-07发表,共计2942字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!