AGI狂潮来袭，Claude年终称王，自主编码震撼全网近5小时！

没有评论

共计 4535 个字符，预计需要花费 12 分钟才能阅读完成。

2025 年即将成为历史，令人惊讶的是，真正的精英竟然潜藏在「民间」！

这并非谷歌，也不是 OpenAI，而是 Anthropic 的强大编程模型 Claude Opus 4.5。

AGI 狂潮来袭，Claude 年终称王，自主编码震撼全网近 5 小时！

根据 METR 最新发布的报告，Claude Opus 4.5 具备了长达五个小时的独立编码能力而不出现崩溃。

即使是 OpenAI 最强大的编程模型——GPT-5.1-Codex-Max 也不得不自愧不如。

AGI 狂潮来袭，Claude 年终称王，自主编码震撼全网近 5 小时！

如今，Claude Opus 4.5 的编码能力令整个网络为之震撼。

人工智能编码智能体的任务处理时间不仅呈现出 指数级的增长，而且其增速也在不断加快！

2019 年至 2024 年：任务处理时间每七个月翻一番

2024 年至 2025 年：任务处理时间每四个月翻一番

AGI 狂潮来袭，Claude 年终称王，自主编码震撼全网近 5 小时！

许多人在第一次见到这条曲线时，往往会下意识地摇头。

有些人难以理解，也有些人拒绝接受这一现实。

然而，越来越明显的一个事实是：AI 编码智能体的任务完成能力，正在快速从“分钟级”跃升至“小时级”，并且这一加速趋势仍在持续中。

网友们普遍认为，这是展示人工智能发展最为关键的图表：

人工智能进化：全新编码智能体的崛起

为何这张图表被誉为「最关键的图表」？

因为它触及了一个至关重要的问题：

AI 是否面临瓶颈？AGI 是否仅仅是一个理想的幻想？2025 年，AI 将取得怎样的进展？

普通用户的感知通常并不强烈，这也是可以理解的。对于大多数人而言，模型早已能够应对日常的询问，如：

「推荐一部影片」「解释这个概念」「撰写一段文案」。

然而，真正的转变却发生在另一个领域：编码智能体。

这一领域恰恰是许多人（包括记者和政策决策者）难以深入理解的。虽然这些进展看似微不足道，但累积起来却蕴含着深远的影响。

AGI 狂潮来袭，Claude 年终称王，自主编码震撼全网近 5 小时！

到 2026 年 4 月，首次出现的 AI 智能体将能够独立完成整个人类的工作日；

至 2026 年底，AI 将能够完成一周任务的一半；

而到 2027 年底，它将完成两个月的任务量；

到 2028 年底，AI 将能完成人类几个月的工作；

到 2030 年，AI 将承担一些小型企业或组织的主要管理职责。

为了量化 AI 与人类能力的差异，今年 3 月，METR 推出了一项新指标：50% 任务完成时间跨度（50%-task-completion time horizon）。

简单来说，就是把 AI 视作一个新手：给它一项任务，观察它在「50% 的概率能完成」时，人类平均需要多长时间。

目前，GPT-5.1-Codex-Max 已经能够完成长达 2 小时 53 分钟的软件工程任务（成功率 50%），其能力比 o1 提升了四倍。

与此同时，Claude Opus 4.5 的 50% 时间跨度约为 4 小时 49 分钟，这已是迄今公布的最长时间跨度。

AGI 狂潮来袭，Claude 年终称王，自主编码震撼全网近 5 小时！

尽管 50% 任务完成时间跨度相对较长，但 Opus 4.5 在 80% 时间跨度上的表现却仅为 27 分钟，这与之前的模型相当，且低于 GPT-5.1-Codex-Max 模型的 32 分钟。

AGI 狂潮来袭，Claude 年终称王，自主编码震撼全网近 5 小时！

不过，Opus 4.5 在 50% 与 80% 时间跨度之间的差距，显示出它的逻辑成功率曲线更加平缓，这意味着在耗时较长的任务中，Opus 模型展现了独特的优势。

甚至有人认为，Claude Code 已足够接近通用人工智能的标准。

这个说法或许有些夸大其词，但它确实反映了一种真实的情况。

2025 年被视为人工智能讨论最为混乱的一年，实际发展的成果与公众的关注焦点之间的差距前所未有。

然而，明年可能会带来变化——当编程智能体的影响力扩展至社会经济的各个领域时，大家将亲眼目睹它的强大能力。希望届时我们能够做好充分的准备。

智能体能够持续完成任务的时间越来越长，这并不让人感到意外。

以往的研究表明，这种现象主要归因于以下四个方面：

推理能力提升：能够将复杂的任务拆分成更小的部分

工具使用熟练：能够编写代码、浏览网页和执行脚本

自我纠错能力增强：出错后可以回退、重试并继续进行

收益递增特性：稍微提高准确性，能够完成的任务数量会大幅增加

AGI 狂潮来袭，Claude 年终称王，自主编码震撼全网近 5 小时！

例如，最新一代的模型能够更有效地组织子任务、调用外部工具（如编程和网页查阅），并在遇到错误时自我纠正，这使得它们在长达数小时的任务链中仍能保持较高的成功率。

当然，在畅想这些美好前景的同时，我们也需要关注当前的局限性。

当任务的持续时间从“小时”延伸至“工作日”，新的问题也随之出现：

上下文丢失：越做越容易忘记之前的内容

错误积累：小失误可能导致严重后果

目标偏离：在执行过程中可能会跑题

归根结底，这些问题都指向了一个核心：长期记忆。

AGI 狂潮来袭，Claude 年终称王，自主编码震撼全网近 5 小时！

几乎所有 AI 能力的短板，最终都与记忆相关。

可以把当前的大模型视作：一个聪慧且反应迅速，但在“下班后会遗忘”的新手。

它能够编写代码、进行推理和撰写文章，但对话结束后，它几乎不记得自己所做的事情。

当前许多智能体的“记忆”，主要依赖于两种方法：

强大的检索工具：在需要时进行搜索（如在代码库中使用 grep）

总结并压缩上下文：将过去的信息浓缩成几段话，然后再输入

尽管信息检索技术已有显著进展，但即使是目前最先进的 RAG（检索增强生成）系统，其准确率也仅为约 90%。

不断扩大的上下文窗口确实在改善这一问题：更大的上下文窗口意味着可以同时输入更多数据，从而帮助模型更高效地在庞大的记忆索引中“阅读”。

然而，即便如此，要实现 AGI 级别的“细致入微”的记忆，仍需 在底层架构上进行突破。

更为重要的是：目前没有任何系统真正实现“自我学习”。

AGI 狂潮来袭，Claude 年终称王，自主编码震撼全网近 5 小时！

缺乏长期记忆的 AI，无法像人类一样“越用越聪明”，无法从错误中学习，更无法积累“常识”和“智慧”。

仅仅“记住”是不够的，智能体必须能够主动“学习”以从经验中获益。

与智能体不同，人类大脑擅长将短期经历转化为长期记忆，随着时间的推移，形成知识网络和经验教训。

AGI 的未来：记忆系统的关键突破

为了实现与人类智能的广泛和深刻的相似性，AGI 亟需一个强大的记忆体系。

普遍的共识是，记忆构成了通用智能的最后一块拼图，至关重要。

换句话说，当前 AI 的计算能力和智能水平可能已接近 AGI 的需求，但缺乏的是人类那样持久而丰富的记忆能力。

谁首先攻克这一“记忆难题”，谁就在 AGI 竞赛中占据先机。

当今的智能体具备强大的信息检索能力，例如使用 Cursor 时，几乎能够从整个代码库中完美搜索所需信息。

然而，它们依然依赖于“主动记忆”机制，需要主动寻找记忆，而非这些记忆自然而然地存在于它们的思维中。

这显然不足以满足需求。

一个能够运行文本搜索工具 grep 的智能体，并不意味着它具备有效的记忆能力。就像一个计算器并不能等同于数学家。

仅仅为智能体提供一个“搜索记忆工具”并不是解决问题的办法。

那么，真正强大的 AI 记忆系统应具备哪些特征呢？

真正的记忆应该像人类一样，无需检索，便能直接知晓。

然而，现阶段的被动记忆机制仍旧相当初步，稍有复杂任务便会崩溃，智能体又会回归依赖“搜索”的状态。

纽约通用智能公司的创始人 Andrew Pignanelli 预计，在未来一年内，AI 行业在“被动记忆系统”方面将会有显著的进展。

在接下来的 12 个月里，记忆系统，尤其是智能体的学习能力，将成为 AI 领域的中心议题，并被正式视为通向 AGI 的关键一步。

自 OpenAI 成功推出 ChatGPT 的记忆功能以来，Claude 也紧随其后，其他模型公司也开始着手完善自身的记忆系统。

长期记忆工具的使用体验将会显著提升，尤其是随着上下文窗口的不断扩展；

“睡眠智能体”将在你不知情的情况下，阅读你的邮件、文件和表格，构建背景知识和个性化的记忆；

“实时智能体”将在信息检索方面趋近完美，你的偏好、语言风格、行为习惯都会被迅速融入其中。

短期内，自动注入上下文的方式可能不会显得特别自然，为了更准确的记忆检索，大家普遍会接受“响应速度较慢”的现实。

但随着 AI 对你的理解越来越深入，你对 AI 的依赖也将不断增强。

在消费者端，用户可能会注意到“对话开始前有点卡顿”，但不会意识到背后有一个庞大的记忆系统在默默运作。

到今年年底，“上下文腐烂”问题（context rot）也将被克服，解决方案包括：

启用“遗忘机制”；
专为长期对话设计的上下文清理系统；
更先进的“上下文检索”技术，能够从庞大的信息堆中精准提取关键信息。

未来，用户将不再通过文件树导航信息，而是由 AI 智能体直接帮助检索和访问所需数据。像 Replit 和 Lovable 这样的代码生成平台已经开始在这方面探索。

预计在明年春天（2026 年），将会出现由“新一代多模态大模型”与“注意力机制以外的记忆系统”相结合所带来的突破。

在未来 12 个月内，“记忆 + 学习”的领域可能会迎来重大的发展。

OpenAI 等领先团队正在全力攻克持续学习和自我记忆技术；一旦他们取得突破并将其应用于顶尖模型，或许我们会惊喜地发现：AGI 的时代已经来临。

综合现状的发展趋势，可以说：AGI 已不再是遥不可及的科幻幻想，而是可能触手可及。

这一预测绝非空穴来风。

回顾过去的一年，我们多次低估了 AI 发展的速度。

尽管 GPT- 5 发布时评价褒贬不一，但实际上在执行长任务方面已显著优于前代；Claude 4.5 的卓越表现，更是证明了技术进步的非线性特征：一旦关键技术取得突破，发展曲线会迅速上升。

如今，随着机器智能成为主要的生产要素，新型组织正在不断涌现。

这是一个前所未有的时刻，这一创新为我们提供了优化流程的新思路。借助 AI 的力量，微型团队竟能创造出超越以往数十人甚至上百人团队的成果，尤其在某些专注于软件开发的领域，生产效率的提升令人瞩目。

这种迅猛的效率实在让人难以抑制内心的激动。

可以说，这是「阿特拉斯卸下重担」的象征，是智能生产力开始腾飞的表现。

与 2023 年那种充满诗意的「AI 觉醒叙述」相比，如今的局面显得更加 现实而实际，但却更加震撼、更加真切。

若记忆问题得以解决，AI 的潜能或将再度迸发。

AGI 狂潮来袭，Claude 年终称王，自主编码震撼全网近 5 小时！

届时，AI 智能体将不再是简单的「工具」，而会演变为一个不断进化、与您共同成长的「数字合作伙伴」。

它能够记住您的喜好。

它会铭记您曾经遭遇的困难。

还可以从项目中提炼出宝贵的经验。

在下次的合作中，它将主动帮助您提升工作效率。

这正是许多人对通用人工智能在社会中角色的美好憧憬。

参考资料：

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

https://www.generalintelligencecompany.com/writing/memory-is-the-last-problem-to-solve-to-reach-agi

https://www.shippingapps.dev/writings/memory-last-problem

https://x.com/tszzl/status/2002488418887168297

本文由微信公众号“新智元”发布，作者：新智元，编辑：KingHZ，36 氪授权转载。

来源：今日头条

原文标题：狂奔 AGI，Claude 年终封王，自主编码近 5 小时震惊全网 – 今日头条

原文链接：https://www.toutiao.com/article/7586500371917373961/

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

发表至： ai编程

2026-01-01

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

TRAE 2025：从探索到信赖的转折年

AI编程遭遇“水土不服”，背后隐藏了哪些问题？

王慧文重磅推出创业英雄帖，OpenClaw究竟瞄准了哪个创新赛道？

国产平替能否逆袭？Claude的禁令下我们该如何选择！

2025年必备AI编程工具深度剖析与推荐

百度千帆发布 OpenClaw，一键开启快速对话体验，3-5分钟轻松配置！

claude编写代码的最佳实践曝光，助你轻松提升编程效率

字节跳动技术副总裁首度开源与Trae合作项目，AI开发现状如何？

实测Opus 4.5：Claude的惊艳蜕变揭秘！

AGI狂潮来袭，Claude年终称王，自主编码震撼全网近5小时！

AI 的指数级增长

智能体时代的到来

AGI 的临近

记忆：最后的挑战

记忆：通向 AGI 的最终难题

展望未来的突破

被动记忆的时代

AGI 的曙光正显现