共计 1386 个字符,预计需要花费 4 分钟才能阅读完成。
在太平洋时间 22 日的早上九点,Anthropic 推出了 4opus 和 4sonnet。这两款新产品在编程、推理和 AI 代理方面表现如何?这是否意味着 Anthropic 准备向谷歌发起挑战呢?
那么,4opus 能否延续 3opus 震撼网络的辉煌呢?
https://www.anthropic.com/news/claude-4
先说说我的感受,提问时我没料到 Claude 今天竟然会更新,原以为只是在搞笑。毕竟 Claude3-0229、3.5-0620、3.7-0219 都是间隔四个月的更新。这次 Anthropic 的节奏却变快了,居然三个月就推出新版本,真是让我感到意外。
初步测试后,sonnet 的表现感觉平平。这其实也在情理之中,毕竟在过去,3.5 和 3.7 版本都是将 sonnet 作为主推模型。换句话说,sonnet 在“地位”上,现在等同于 opus。
既然 opus 已经发布,从各个方面来看,sonnet 的表现肯定不会过于出色。否则的话,大杯和中杯的差距就会缩小,谁还会选择使用大杯模型呢?
大杯 opus 的表现算是中规中矩。虽然没有我想象中的那种惊艳,文学方面的提升确实相较于 3op 大幅度增加,但与 3.7-sonnet 相比,似乎没有实现谷歌 2.0 到 2.5 那样的飞跃。
在代码方面,虽然有一些初步尝试,进步是明显的,但仍然缺乏质的飞跃。个人希望 3.7 到 4.0 能像 Claude2.1 到 3.0 那样实现巨大的突破,但实际感受上,3.7 到 4.0 更像是 3.5 到 3.7,是一次小幅优化,却没有根本性的变化。
总体来说表现已经相当不错。相比于那些毫无头绪的竞争者,Anthropic 至少提前了一个月进行更新。
此次更新最大的意义在于打破了 Anthropic 四月一日更新模型的惯例。非常期待 Claude 能够像谷歌那样快速迭代,向大型模型领域的顶尖位置发起冲击。
2025 年 5 月 23 日 04:50,经过多次使用和测试后,我对文学创作能力的新看法是:虽然文学能力不如 2.5pro-0506,但相比 0506 而言,更具“人性化”。
4opus 能够主动推理接下来可能发生的事情,从而帮助作者构建剧情。但其质量……勉强可用。
在文学创作方面,2.5pro 和 4opus 各有优缺点,但综合来看,辅助创作时仍然推荐使用 2.5pro,毕竟 2.5pro 的文笔明显优于 4opus。至于“人性化”的部分,作者可以手动进行调整。
我对 Anthropic 的模型比较满意,因为 Claude 系列是我使用起来最顺手的。它虽然不是最强大的,但它的使用体验让我感到非常舒适。
大胆预测,4opus 将继续以高性能和高价格在市场上占据一席之地,而 4sonnet 也将成为程序员编写代码的最佳助手。
唯一值得担心的问题是 opus 的 API 是否仍会保持 3 时代的高昂价格——如果是这样的话,只能等待与 Anthropic 有合作的网站或公司上线该模型后再进行使用。
希望传出的消息是真的,我对此充满期待。

