OpenAI 发布 GPT-5-Codex：编程能力跃升，探索更多令人惊艳的亮点！

共计 4310 个字符，预计需要花费 11 分钟才能阅读完成。

9月16日消息，今日凌晨，OpenAI推出了新模型GPT-5-Codex，这是一款在GPT-5基础上专为软件开发优化的模型版本，进一步增强了Codex在智能编程（Agentic Coding）方面的能力。

根据OpenAI在博客中的介绍，GPT-5-Codex的训练重点是实际的软件工程任务，它能够根据不同的任务动态调整思考时间，并且在处理大型复杂任务时，可以独立工作超过7个小时。

在基准测试中，GPT-5-Codex的准确率和代码审查中的高影响力评论概率相较于GPT-5都有了显著提升。

发布仅两个多小时后，OpenAI的联合创始人兼CEO萨姆·阿尔特曼（Sam Altman）在X平台上透露，GPT-5-Codex的流量占比已经达到Codex总流量的40%左右，预计当天会超过一半的流量。

在所有开发者使用Codex的场景中，GPT-5-Codex均适用，它成为云端任务和代码审查的默认工具，开发者还可以通过Codex命令行界面（CLI）或集成开发环境（IDE）进行扩展，选择在本地执行任务。

OpenAI在今年4月首次推出了开源编程智能体Codex CLI，并在5月发布了Codex的网页版。两周前，Codex被整合为一个单一的产品体验，开发者可以在本地环境与云端之间无缝迁移工作，而无需担心上下文的丢失。

Codex已经包含在ChatGPT Plus、Pro、Business、教育和企业用户的订阅套餐中，其中Plus、教育和Business套餐提供每周几次重点编码课程，而Pro套餐支持一周内多个项目的使用。对于使用API密钥的Codex CLI开发者，OpenAI计划很快在API中提供GPT-5-Codex。

在OpenAI的X评论区，开发者们表示，这一新发布对处理复杂项目显得极具前景，同时也有人对自己的AI工具订阅预算表示担忧。

https://baijiahao.baidu.com/s?id=1843420177013723860&wfr=spider&for=pc

最近，OpenAI推出了最新版本的Codex编程工具，此次更新覆盖了日常编码场景，包括终端、IDE和Web等，并被命名为GPT-5-Codex 。

总体来看，这个新版本的Codex具备以下几个特点：

专门优化的Agent编程：GPT-5-Codex在GPT-5的基础上，针对复杂软件工程任务进行了优化，如大型代码库的重构、代码审查及长期运行的任务。
动态“思考时间”机制：这一特点也是GPT-5的一部分。它会根据用户任务的复杂程度，灵活分配计算资源和时间，这个“思考”时间可能从几秒钟延续到七小时。这意味着，如果模型认为任务需要更多资源，它可以在执行过程中增强投入。
更广泛的可用性：GPT-5-Codex已整合入Codex助手，支持ChatGPT的Plus、Pro、Business、Education（Edu）和Enterprise用户。在各种编码平台上，例如终端（CLI）、IDE、GitHub及ChatGPT界面中均可使用。
基准测试表现提升：在多个标准编程基准测试中，GPT-5-Codex的性能优于普通的GPT-5，尤其在大规模重构任务和SWE-bench类别的验证任务中表现突出，且代码审查的质量显著提高，错误更少，评论对代码改善的影响更加明显。

与GPT-5相比，新版本的Codex在SWE-bench上的表现提升了1.7个百分点，说明Codex版本在自动修复真实代码缺陷方面能力更强。而在代码重构任务中，GPT-5-Codex的准确率提高了17.4个百分点，相对性能几乎提升了50%。

值得注意的是，GPT-5由于其混合推理能力，能够根据任务复杂度进行适应性思考。新版本的Codex同样具备这一特性。GPT-5-Codex会根据任务的复杂性灵活调整“思考”时间。该模型结合了代码助手的两项关键能力：与开发者进行交互配合，及在长时间任务上持续独立执行。这表明，对于简单且明确的请求，Codex响应速度更快；而在需要复杂处理的任务（如大型重构）时，则会投入更多时间进行工作。在OpenAI的测试过程中，对于一些简单任务（如生成少量tokens的请求），GPT-5-Codex的token使用量比GPT-5减少了93.7%；而在复杂任务上，它的推理、编辑、测试和迭代时间则是前者的两倍。

在代码审查性能的比较中（GPT-5与GPT-5-Codex），GPT-5-Codex特别强化了代码审查和缺陷识别的能力，能够浏览代码库、分析依赖关系、运行测试并验证正确性，输出更为可靠的评论。同时，其审查过程更为精准，干扰更少，使得用户可以集中精力于关键缺陷，从而提高代码质量和审查效率。

事实上，目前国内外已经涌现出众多AI编程工具，而新版本的Codex与它们相比具备怎样的优势呢？我们从任务复杂度、用户体验、响应时间等方面进行了详细对比。

对比维度	GPT-5-Codex	Claude Code	Gemini CLI	Cursor	CodeBuddy
复杂任务与长时间任务能力	表现出色。对于大规模重构、测试修复及迭代任务，它具备动态思考时间机制，可以持续数小时运作，自主修复测试错误，特别适合处理复杂流程。	同样具备 agent 性能，能够编辑文件、执行测试、创建PR以及修复bug等功能。尽管能处理多步骤任务，但在公开资料中并未明确显示能独立运行的时长（至少未提及“7小时以上”的表述）。	支持复杂任务，如重构、调试及调试覆盖率的提升，Gemini CLI 拥有较大的上下文窗口，能够理解整个项目的结构，适合于大规模代码库。	对于中等至大型项目的支持表现良好。Cursor 可以进行多文件重构、代码库查询和智能重写等，但在处理极其庞大且复杂的逻辑流程时，可能不及专用的 agent 工具。	CodeBuddy 在多文件生成和重构、诊断方面表现突出，但在“长时间独立执行或自动迭代修复复杂错误”的能力上，可能无法与 Codex 的新版本相比（公开资料中未提及能连续几小时自主执行复杂重构）。
速度响应 vs 延迟	在简单任务或明确请求下反应迅速；然而在复杂任务中，为了确保质量，响应速度可能会放缓，以便进行思考、测试和迭代。	部分用户反映在处理复杂任务时，可能会感到速度较慢（例如修复bug或进行大规模重构），但输出质量较高。(Reddit)	Gemini CLI 强调“迅速”、“支持多任务”的特点，并在命令行中实现自然语言控制工作流程，速度方面有较大的预览版免费额度，可能响应较快；但在非常复杂的任务上也可能出现延迟。(Medium)	Cursor 在编辑、重构和智能重写方面几乎提供实时的编辑体验，尤其在用户频繁交互的情况下，延迟通常在可接受范围内。	CodeBuddy 的表现中等偏上：在生成、重构和诊断等任务中需要一定的计算和推理时间，但其总体目标是提高效率，缩短开发时间，可能不如 Codex 在极度复杂任务中的持续执行能力。
交互性 & 操作体验	非常强大，支持交互式开发、agent式自动执行、长期迭代，能够与开发者进行互动、接收反馈并修复测试失败等。	交互性极强：支持自然语言指令的命令行，PR与commit的整合，以及问题与代码之间的闭环流程，能够回答架构与逻辑相关的问题。(Anthropic)	操作体验良好，用户可以通过CLI与代码库直接交互，支持文件读写、测试和调试等功能。用户界面简洁，以终端为主。	Cursor 在编辑器体验上表现突出，非常适合日常的写作、修改、重构、查询和调试，用户界面支持良好。	CodeBuddy 提供自然语言指令支持、多文件重构和代码审查等交互体验，旨在提高开发效率和协作效果。
资源效率 / Token／成本控制	新的Codex在处理简单任务时能够节省token和资源；在复杂任务中，尽管消耗更多，但应能提供更高质量和更稳定的输出，这种动态资源分配是其主要优势之一。	Claude Code 提供可配置的上下文和pull context机制，然而自动拉取上下文会消耗token。用户报告提到“每小时内容上下文压缩”的问题。(Business Insider)	Gemini CLI 拥有极大的上下文窗口，理解项目整体能力强，因此在资源消耗和计算成本方面或许高于小型工具，不过其提供的免费额度样本尚可。	Cursor 的token使用情况取决于所选模型、计划和上下文规模，多文件索引和查询可能会消耗较多资源，用户需要选择模型等级和订阅等。	CodeBuddy 在多文件生成、重构和诊断中会消耗一定的资源，但在中等任务下的效率表现可能不错。公开资料中未提及是否具备类似Codex的动态思考时间的资源分配机制。

根据不同工具的综合表现，推荐指数如下：

工具	复杂任务能力	上下文理解	响应速度	交互体验	推荐值
GPT-5-Codex	★★★★★	★★★★★	★★★★☆	★★★★☆	9.5
Claude Code	★★★★☆	★★★★☆	★★★☆☆	★★★★★	9.0
Gemini CLI	★★★★☆	★★★★★	★★★★☆	★★★★☆	8.5
Cursor	★★★☆☆	★★★★☆	★★★★★	★★★★★	8.2
CodeBuddy	★★★☆☆	★★★★☆	★★★★☆	★★★★☆	8.0

随着人工智能编程工具之间竞争的日益激烈，Codex、Claude Code、Gemini CLI、Cursor、CodeBuddy等工具正在形成一个丰富多样的生态体系。对于开发者而言，选择合适的工具变得越来越关键：

如果你的项目涉及大型重构、复杂依赖分析或长期迭代任务，建议优先考虑 GPT-5-Codex 或 Claude Code；
若需要快速原型开发、实时补全和频繁交互，Cursor 或 Gemini CLI 将是更加顺畅的选择；
假如希望结合企业环境、团队协作及代码审查，Codex与GitHub工作流或CodeBuddy团队能力可能更为匹配。未来可能会有更多的AI编程助手向“自动化开发代理”发展，不再仅仅是“代码补全”，而是能涵盖从需求到部署的全流程支持。GPT-5-Codex已经展现出这一趋势——它不仅能帮助你编写代码，还能理解项目目标，并努力将任务完成到可交付的状态。

来源：知乎

原文标题：OpenAI 发布 GPT-5-Codex，编程能力大幅提升，还有哪些亮点值得关注？ – theigrams 的回答

原文链接：https://www.zhihu.com/question/1951228571914859740/answer/1951583478886961536

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完