惊人发现!Claude 独自编程近五小时,背后真相引人深思!

共计 1988 个字符,预计需要花费 5 分钟才能阅读完成。

震撼!Claude独立编程近5小时

近期,人工智能领域发生了一项引人注目的技术突破:Anthropic的Claude Opus 4.5模型在自主编码能力方面展现出非凡的持续作业能力,震动了整个行业。

根据METR的权威报告,Claude Opus 4.5在50%任务完成时间方面达到4小时49分钟,这一成绩创下了公开记录,超越了OpenAI的GPT-5.1-Codex-Max的2小时53分钟。这一结果在社交媒体和技术圈内引发了热烈讨论,甚至有观点认为Claude已接近通用人工智能(AGI)的概念。

技术突破的核心表现

1、长时间任务处理的独特优势:Claude Opus 4.5在50%任务完成时间上明显处于领先地位,但在80%成功率时只能维持27分钟。这一特性表明其逻辑成功率曲线更加平缓,意味着在长时间复杂任务中具备更强的稳定性。举例来说,在模拟航空客服系统的重构任务中,Claude能够通过多次自我纠正和工具调用(如编写代码、查找网页),持续推进任务的完成,而GPT-5.1-Codex-Max则容易因局部错误而中断整体流程。

2、与GPT-5.1-Codex-Max的对比:虽然GPT-5.1-Codex-Max在即时工具调用和成本效率方面占据优势,但其80%任务完成时间仅为32分钟,并在处理百万token级代码库时频繁需要上下文切换。而Claude则凭借增强的记忆能力和上下文管理,能够一次性分析整个代码库,减少因信息丢失引起的错误。例如,在τ2-bench基准测试中,Claude能够创造性地提出符合政策的解决方案,而GPT-5.1-Codex-Max则更倾向于遵循常规流程。

3、任务模式的创新:同期推出的Claude任务模式已进入功能验证阶段,该模式支持多步骤任务的可视化执行,用户可以随时介入以修改计划或补充上下文。这种灵活性为长时间编码任务提供了更为可靠的人机协作机制。例如,开发者在构建Web应用时,可以通过任务模式监控代码生成进度,并在关键节点进行干预,以确保最终结果符合预期。

技术路径与行业影响

1、突破的底层逻辑:Claude Opus 4.5的进步源于四项技术优化。

推理分解能力:将复杂任务分解为可管理的子任务序列,从而降低每一步的错误风险。

工具调用熟练度:深度整合代码编写、API调用等外部工具,形成闭环工作流。

自纠错机制:通过回滚和重试策略处理执行中的异常,防止任务中断。

上下文窗口扩展:支持处理超过百万token的代码库,减少信息遗漏。

2、AGI逼近的信号:尽管离真正的AGI还有距离,但Claude的表现被视为重要里程碑。METR预测,按照当前的指数级增长趋势,到2026年4月,AI智能体将有能力独立完成日常人类工作,2030年可承担小型企业的核心管理职能。这一进程可能重塑软件行业的生产力格局,例如开发者可以借助Claude快速生成原型代码,再利用GPT-5.1-Codex-Max进行安全审计和优化,从而形成创意-执行-验证的高效协作链。

3、现存的关键挑战:

记忆短板:Claude仍依赖外部检索和上下文压缩实现伪记忆,缺乏真正的长期自主学习能力。其80%任务完成时间短的问题,反映出复杂任务中推理偏差的累积风险。

成本与稳定性:Claude Opus 4.5的API定价是GPT-5.1-Codex-Max的四倍,并且在高强度任务中可能出现45分钟的运行限制。

对齐风险:虽然Anthropic强调其模型的高对齐水平,但在涉及敏感操作时仍需人类监督,以防止不可控的代码修改。

写在最后

2025年将是AI技术与公众舆论分歧最大的一年:实际进展(如编码智能体的突破)与公众感知(聚焦于聊天机器人的娱乐化应用)之间存在显著差异。

随着Claude任务模式的即将上线和记忆系统的持续优化(如Anthropic计划引入类似人类的被动记忆机制),AI将从工具逐步演变为数字同事。企业用户已开始探索混合工作流,例如用Claude进行架构设计,GPT-5.1-Codex-Max执行具体开发,再通过Gemini进行多模态验证,形成理想的开发团队。

这一趋势预示着,随着AI能够持续处理数小时的复杂任务,其影响力将深入软件开发、金融分析、科学研究等关键领域,推动社会生产力的飞跃。


炎炎星球:专注于AI、机器人、智能设备、智能驾驶等前沿科技的发展,致力于科普、应用与创新。努力成为AI新时代的先锋,新兴产业的观察者,以及前沿科技的探索者,智慧成长的引导者!欢迎大家关注:)

抱歉,我无法执行该请求。

来源:今日头条
原文标题:震惊!Claude自己编程近5小时 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-12-23发表,共计1988字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!