共计 4310 个字符,预计需要花费 11 分钟才能阅读完成。
9月16日消息,今日凌晨,OpenAI推出了新模型GPT-5-Codex,这是一款在GPT-5基础上专为软件开发优化的模型版本,进一步增强了Codex在智能编程(Agentic Coding)方面的能力。
根据OpenAI在博客中的介绍,GPT-5-Codex的训练重点是实际的软件工程任务,它能够根据不同的任务动态调整思考时间,并且在处理大型复杂任务时,可以独立工作超过7个小时。
在基准测试中,GPT-5-Codex的准确率和代码审查中的高影响力评论概率相较于GPT-5都有了显著提升。
发布仅两个多小时后,OpenAI的联合创始人兼CEO萨姆·阿尔特曼(Sam Altman)在X平台上透露,GPT-5-Codex的流量占比已经达到Codex总流量的40%左右,预计当天会超过一半的流量。
在所有开发者使用Codex的场景中,GPT-5-Codex均适用,它成为云端任务和代码审查的默认工具,开发者还可以通过Codex命令行界面(CLI)或集成开发环境(IDE)进行扩展,选择在本地执行任务。
OpenAI在今年4月首次推出了开源编程智能体Codex CLI,并在5月发布了Codex的网页版。两周前,Codex被整合为一个单一的产品体验,开发者可以在本地环境与云端之间无缝迁移工作,而无需担心上下文的丢失。
Codex已经包含在ChatGPT Plus、Pro、Business、教育和企业用户的订阅套餐中,其中Plus、教育和Business套餐提供每周几次重点编码课程,而Pro套餐支持一周内多个项目的使用。对于使用API密钥的Codex CLI开发者,OpenAI计划很快在API中提供GPT-5-Codex。
在OpenAI的X评论区,开发者们表示,这一新发布对处理复杂项目显得极具前景,同时也有人对自己的AI工具订阅预算表示担忧。

https://baijiahao.baidu.com/s?id=1843420177013723860&wfr=spider&for=pc
最近,OpenAI推出了最新版本的Codex编程工具,此次更新覆盖了日常编码场景,包括终端、IDE和Web等,并被命名为GPT-5-Codex 。

总体来看,这个新版本的Codex具备以下几个特点:
- 专门优化的Agent编程:GPT-5-Codex在GPT-5的基础上,针对复杂软件工程任务进行了优化,如大型代码库的重构、代码审查及长期运行的任务。
- 动态“思考时间”机制:这一特点也是GPT-5的一部分。它会根据用户任务的复杂程度,灵活分配计算资源和时间,这个“思考”时间可能从几秒钟延续到七小时。这意味着,如果模型认为任务需要更多资源,它可以在执行过程中增强投入。
- 更广泛的可用性:GPT-5-Codex已整合入Codex助手,支持ChatGPT的Plus、Pro、Business、Education(Edu)和Enterprise用户。在各种编码平台上,例如终端(CLI)、IDE、GitHub及ChatGPT界面中均可使用。
- 基准测试表现提升:在多个标准编程基准测试中,GPT-5-Codex的性能优于普通的GPT-5,尤其在大规模重构任务和SWE-bench类别的验证任务中表现突出,且代码审查的质量显著提高,错误更少,评论对代码改善的影响更加明显。
GPT-5-Codex能力显著提升
与GPT-5相比,新版本的Codex在SWE-bench上的表现提升了1.7个百分点,说明Codex版本在自动修复真实代码缺陷方面能力更强。而在代码重构任务中,GPT-5-Codex的准确率提高了17.4个百分点,相对性能几乎提升了50%。

值得注意的是,GPT-5由于其混合推理能力,能够根据任务复杂度进行适应性思考。新版本的Codex同样具备这一特性。GPT-5-Codex会根据任务的复杂性灵活调整“思考”时间。该模型结合了代码助手的两项关键能力:与开发者进行交互配合,及在长时间任务上持续独立执行。这表明,对于简单且明确的请求,Codex响应速度更快;而在需要复杂处理的任务(如大型重构)时,则会投入更多时间进行工作。在OpenAI的测试过程中,对于一些简单任务(如生成少量tokens的请求),GPT-5-Codex的token使用量比GPT-5减少了93.7%;而在复杂任务上,它的推理、编辑、测试和迭代时间则是前者的两倍。

在代码审查性能的比较中(GPT-5与GPT-5-Codex),GPT-5-Codex特别强化了代码审查和缺陷识别的能力,能够浏览代码库、分析依赖关系、运行测试并验证正确性,输出更为可靠的评论。同时,其审查过程更为精准,干扰更少,使得用户可以集中精力于关键缺陷,从而提高代码质量和审查效率。

Codex与主流AI编程工具的对比
事实上,目前国内外已经涌现出众多AI编程工具,而新版本的Codex与它们相比具备怎样的优势呢?我们从任务复杂度、用户体验、响应时间等方面进行了详细对比。
| 对比维度 | GPT-5-Codex | Claude Code | Gemini CLI | Cursor | CodeBuddy |
|---|---|---|---|---|---|
| 复杂任务与长时间任务能力 | 表现出色。对于大规模重构、测试修复及迭代任务,它具备动态思考时间机制,可以持续数小时运作,自主修复测试错误,特别适合处理复杂流程。 | 同样具备 agent 性能,能够编辑文件、执行测试、创建PR以及修复bug等功能。尽管能处理多步骤任务,但在公开资料中并未明确显示能独立运行的时长(至少未提及“7小时以上”的表述)。 | 支持复杂任务,如重构、调试及调试覆盖率的提升,Gemini CLI 拥有较大的上下文窗口,能够理解整个项目的结构,适合于大规模代码库。 | 对于中等至大型项目的支持表现良好。Cursor 可以进行多文件重构、代码库查询和智能重写等,但在处理极其庞大且复杂的逻辑流程时,可能不及专用的 agent 工具。 | CodeBuddy 在多文件生成和重构、诊断方面表现突出,但在“长时间独立执行或自动迭代修复复杂错误”的能力上,可能无法与 Codex 的新版本相比(公开资料中未提及能连续几小时自主执行复杂重构)。 |
| 速度响应 vs 延迟 | 在简单任务或明确请求下反应迅速;然而在复杂任务中,为了确保质量,响应速度可能会放缓,以便进行思考、测试和迭代。 | 部分用户反映在处理复杂任务时,可能会感到速度较慢(例如修复bug或进行大规模重构),但输出质量较高。(Reddit) | Gemini CLI 强调“迅速”、“支持多任务”的特点,并在命令行中实现自然语言控制工作流程,速度方面有较大的预览版免费额度,可能响应较快;但在非常复杂的任务上也可能出现延迟。(Medium) | Cursor 在编辑、重构和智能重写方面几乎提供实时的编辑体验,尤其在用户频繁交互的情况下,延迟通常在可接受范围内。 | CodeBuddy 的表现中等偏上:在生成、重构和诊断等任务中需要一定的计算和推理时间,但其总体目标是提高效率,缩短开发时间,可能不如 Codex 在极度复杂任务中的持续执行能力。 |
| 交互性 & 操作体验 | 非常强大,支持交互式开发、agent式自动执行、长期迭代,能够与开发者进行互动、接收反馈并修复测试失败等。 | 交互性极强:支持自然语言指令的命令行,PR与commit的整合,以及问题与代码之间的闭环流程,能够回答架构与逻辑相关的问题。(Anthropic) | 操作体验良好,用户可以通过CLI与代码库直接交互,支持文件读写、测试和调试等功能。用户界面简洁,以终端为主。 | Cursor 在编辑器体验上表现突出,非常适合日常的写作、修改、重构、查询和调试,用户界面支持良好。 | CodeBuddy 提供自然语言指令支持、多文件重构和代码审查等交互体验,旨在提高开发效率和协作效果。 |
| 资源效率 / Token/成本控制 | 新的Codex在处理简单任务时能够节省token和资源;在复杂任务中,尽管消耗更多,但应能提供更高质量和更稳定的输出,这种动态资源分配是其主要优势之一。 | Claude Code 提供可配置的上下文和pull context机制,然而自动拉取上下文会消耗token。用户报告提到“每小时内容上下文压缩”的问题。(Business Insider) | Gemini CLI 拥有极大的上下文窗口,理解项目整体能力强,因此在资源消耗和计算成本方面或许高于小型工具,不过其提供的免费额度样本尚可。 | Cursor 的token使用情况取决于所选模型、计划和上下文规模,多文件索引和查询可能会消耗较多资源,用户需要选择模型等级和订阅等。 | CodeBuddy 在多文件生成、重构和诊断中会消耗一定的资源,但在中等任务下的效率表现可能不错。公开资料中未提及是否具备类似Codex的动态思考时间的资源分配机制。 |
根据不同工具的综合表现,推荐指数如下:
| 工具 | 复杂任务能力 | 上下文理解 | 响应速度 | 交互体验 | 推荐值 |
|---|---|---|---|---|---|
| GPT-5-Codex | ★★★★★ | ★★★★★ | ★★★★☆ | ★★★★☆ | 9.5 |
| Claude Code | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★★★ | 9.0 |
| Gemini CLI | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★☆ | 8.5 |
| Cursor | ★★★☆☆ | ★★★★☆ | ★★★★★ | ★★★★★ | 8.2 |
| CodeBuddy | ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | 8.0 |
总结
随着人工智能编程工具之间竞争的日益激烈,Codex、Claude Code、Gemini CLI、Cursor、CodeBuddy等工具正在形成一个丰富多样的生态体系。对于开发者而言,选择合适的工具变得越来越关键:
- 如果你的项目涉及大型重构、复杂依赖分析或长期迭代任务,建议优先考虑 GPT-5-Codex 或 Claude Code;
- 若需要快速原型开发、实时补全和频繁交互,Cursor 或 Gemini CLI 将是更加顺畅的选择;
- 假如希望结合企业环境、团队协作及代码审查,Codex与GitHub工作流或CodeBuddy团队能力可能更为匹配。未来可能会有更多的AI编程助手向“自动化开发代理”发展,不再仅仅是“代码补全”,而是能涵盖从需求到部署的全流程支持。GPT-5-Codex已经展现出这一趋势——它不仅能帮助你编写代码,还能理解项目目标,并努力将任务完成到可交付的状态。
