OpenAI 发布 GPT-5-Codex:编程能力跃升,探索更多令人惊艳的亮点!

共计 4310 个字符,预计需要花费 11 分钟才能阅读完成。

9月16日消息,今日凌晨,OpenAI推出了新模型GPT-5-Codex,这是一款在GPT-5基础上专为软件开发优化的模型版本,进一步增强了Codex在智能编程(Agentic Coding)方面的能力。

根据OpenAI在博客中的介绍,GPT-5-Codex的训练重点是实际的软件工程任务,它能够根据不同的任务动态调整思考时间,并且在处理大型复杂任务时,可以独立工作超过7个小时

在基准测试中,GPT-5-Codex的准确率和代码审查中的高影响力评论概率相较于GPT-5都有了显著提升。

发布仅两个多小时后,OpenAI的联合创始人兼CEO萨姆·阿尔特曼(Sam Altman)在X平台上透露,GPT-5-Codex的流量占比已经达到Codex总流量的40%左右,预计当天会超过一半的流量。

在所有开发者使用Codex的场景中,GPT-5-Codex均适用,它成为云端任务和代码审查的默认工具,开发者还可以通过Codex命令行界面(CLI)或集成开发环境(IDE)进行扩展,选择在本地执行任务。

OpenAI在今年4月首次推出了开源编程智能体Codex CLI,并在5月发布了Codex的网页版。两周前,Codex被整合为一个单一的产品体验,开发者可以在本地环境与云端之间无缝迁移工作,而无需担心上下文的丢失。

Codex已经包含在ChatGPT Plus、Pro、Business、教育和企业用户的订阅套餐中,其中Plus、教育和Business套餐提供每周几次重点编码课程,而Pro套餐支持一周内多个项目的使用。对于使用API密钥的Codex CLI开发者,OpenAI计划很快在API中提供GPT-5-Codex。

在OpenAI的X评论区,开发者们表示,这一新发布对处理复杂项目显得极具前景,同时也有人对自己的AI工具订阅预算表示担忧。

https://baijiahao.baidu.com/s?id=1843420177013723860&wfr=spider&for=pc

最近,OpenAI推出了最新版本的Codex编程工具,此次更新覆盖了日常编码场景,包括终端、IDE和Web等,并被命名为GPT-5-Codex 。

总体来看,这个新版本的Codex具备以下几个特点:

  • 专门优化的Agent编程:GPT-5-Codex在GPT-5的基础上,针对复杂软件工程任务进行了优化,如大型代码库的重构、代码审查及长期运行的任务。
  • 动态“思考时间”机制:这一特点也是GPT-5的一部分。它会根据用户任务的复杂程度,灵活分配计算资源和时间,这个“思考”时间可能从几秒钟延续到七小时。这意味着,如果模型认为任务需要更多资源,它可以在执行过程中增强投入。
  • 更广泛的可用性:GPT-5-Codex已整合入Codex助手,支持ChatGPT的Plus、Pro、Business、Education(Edu)和Enterprise用户。在各种编码平台上,例如终端(CLI)、IDE、GitHub及ChatGPT界面中均可使用。
  • 基准测试表现提升:在多个标准编程基准测试中,GPT-5-Codex的性能优于普通的GPT-5,尤其在大规模重构任务和SWE-bench类别的验证任务中表现突出,且代码审查的质量显著提高,错误更少,评论对代码改善的影响更加明显。

GPT-5-Codex能力显著提升

与GPT-5相比,新版本的Codex在SWE-bench上的表现提升了1.7个百分点,说明Codex版本在自动修复真实代码缺陷方面能力更强。而在代码重构任务中,GPT-5-Codex的准确率提高了17.4个百分点,相对性能几乎提升了50%。

值得注意的是,GPT-5由于其混合推理能力,能够根据任务复杂度进行适应性思考。新版本的Codex同样具备这一特性。GPT-5-Codex会根据任务的复杂性灵活调整“思考”时间。该模型结合了代码助手的两项关键能力:与开发者进行交互配合,及在长时间任务上持续独立执行。这表明,对于简单且明确的请求,Codex响应速度更快;而在需要复杂处理的任务(如大型重构)时,则会投入更多时间进行工作。在OpenAI的测试过程中,对于一些简单任务(如生成少量tokens的请求),GPT-5-Codex的token使用量比GPT-5减少了93.7%;而在复杂任务上,它的推理、编辑、测试和迭代时间则是前者的两倍。

在代码审查性能的比较中(GPT-5与GPT-5-Codex),GPT-5-Codex特别强化了代码审查和缺陷识别的能力,能够浏览代码库、分析依赖关系、运行测试并验证正确性,输出更为可靠的评论。同时,其审查过程更为精准,干扰更少,使得用户可以集中精力于关键缺陷,从而提高代码质量和审查效率。

Codex与主流AI编程工具的对比

事实上,目前国内外已经涌现出众多AI编程工具,而新版本的Codex与它们相比具备怎样的优势呢?我们从任务复杂度、用户体验、响应时间等方面进行了详细对比。

对比维度 GPT-5-Codex Claude Code Gemini CLI Cursor CodeBuddy
复杂任务与长时间任务能力 表现出色。对于大规模重构、测试修复及迭代任务,它具备动态思考时间机制,可以持续数小时运作,自主修复测试错误,特别适合处理复杂流程。 同样具备 agent 性能,能够编辑文件、执行测试、创建PR以及修复bug等功能。尽管能处理多步骤任务,但在公开资料中并未明确显示能独立运行的时长(至少未提及“7小时以上”的表述)。 支持复杂任务,如重构、调试及调试覆盖率的提升,Gemini CLI 拥有较大的上下文窗口,能够理解整个项目的结构,适合于大规模代码库。 对于中等至大型项目的支持表现良好。Cursor 可以进行多文件重构、代码库查询和智能重写等,但在处理极其庞大且复杂的逻辑流程时,可能不及专用的 agent 工具。 CodeBuddy 在多文件生成和重构、诊断方面表现突出,但在“长时间独立执行或自动迭代修复复杂错误”的能力上,可能无法与 Codex 的新版本相比(公开资料中未提及能连续几小时自主执行复杂重构)。
速度响应 vs 延迟 在简单任务或明确请求下反应迅速;然而在复杂任务中,为了确保质量,响应速度可能会放缓,以便进行思考、测试和迭代。 部分用户反映在处理复杂任务时,可能会感到速度较慢(例如修复bug或进行大规模重构),但输出质量较高。(Reddit) Gemini CLI 强调“迅速”、“支持多任务”的特点,并在命令行中实现自然语言控制工作流程,速度方面有较大的预览版免费额度,可能响应较快;但在非常复杂的任务上也可能出现延迟。(Medium) Cursor 在编辑、重构和智能重写方面几乎提供实时的编辑体验,尤其在用户频繁交互的情况下,延迟通常在可接受范围内。 CodeBuddy 的表现中等偏上:在生成、重构和诊断等任务中需要一定的计算和推理时间,但其总体目标是提高效率,缩短开发时间,可能不如 Codex 在极度复杂任务中的持续执行能力。
交互性 & 操作体验 非常强大,支持交互式开发、agent式自动执行、长期迭代,能够与开发者进行互动、接收反馈并修复测试失败等。 交互性极强:支持自然语言指令的命令行,PR与commit的整合,以及问题与代码之间的闭环流程,能够回答架构与逻辑相关的问题。(Anthropic) 操作体验良好,用户可以通过CLI与代码库直接交互,支持文件读写、测试和调试等功能。用户界面简洁,以终端为主。 Cursor 在编辑器体验上表现突出,非常适合日常的写作、修改、重构、查询和调试,用户界面支持良好。 CodeBuddy 提供自然语言指令支持、多文件重构和代码审查等交互体验,旨在提高开发效率和协作效果。
资源效率 / Token/成本控制 新的Codex在处理简单任务时能够节省token和资源;在复杂任务中,尽管消耗更多,但应能提供更高质量和更稳定的输出,这种动态资源分配是其主要优势之一。 Claude Code 提供可配置的上下文和pull context机制,然而自动拉取上下文会消耗token。用户报告提到“每小时内容上下文压缩”的问题。(Business Insider) Gemini CLI 拥有极大的上下文窗口,理解项目整体能力强,因此在资源消耗和计算成本方面或许高于小型工具,不过其提供的免费额度样本尚可。 Cursor 的token使用情况取决于所选模型、计划和上下文规模,多文件索引和查询可能会消耗较多资源,用户需要选择模型等级和订阅等。 CodeBuddy 在多文件生成、重构和诊断中会消耗一定的资源,但在中等任务下的效率表现可能不错。公开资料中未提及是否具备类似Codex的动态思考时间的资源分配机制。

根据不同工具的综合表现,推荐指数如下:

工具 复杂任务能力 上下文理解 响应速度 交互体验 推荐值
GPT-5-Codex ★★★★★ ★★★★★ ★★★★☆ ★★★★☆ 9.5
Claude Code ★★★★☆ ★★★★☆ ★★★☆☆ ★★★★★ 9.0
Gemini CLI ★★★★☆ ★★★★★ ★★★★☆ ★★★★☆ 8.5
Cursor ★★★☆☆ ★★★★☆ ★★★★★ ★★★★★ 8.2
CodeBuddy ★★★☆☆ ★★★★☆ ★★★★☆ ★★★★☆ 8.0

总结

随着人工智能编程工具之间竞争的日益激烈,Codex、Claude Code、Gemini CLI、Cursor、CodeBuddy等工具正在形成一个丰富多样的生态体系。对于开发者而言,选择合适的工具变得越来越关键:

  • 如果你的项目涉及大型重构、复杂依赖分析或长期迭代任务,建议优先考虑 GPT-5-Codex 或 Claude Code;
  • 若需要快速原型开发、实时补全和频繁交互,Cursor 或 Gemini CLI 将是更加顺畅的选择;
  • 假如希望结合企业环境、团队协作及代码审查,Codex与GitHub工作流或CodeBuddy团队能力可能更为匹配。未来可能会有更多的AI编程助手向“自动化开发代理”发展,不再仅仅是“代码补全”,而是能涵盖从需求到部署的全流程支持。GPT-5-Codex已经展现出这一趋势——它不仅能帮助你编写代码,还能理解项目目标,并努力将任务完成到可交付的状态。
来源:知乎
原文标题:OpenAI 发布 GPT-5-Codex,编程能力大幅提升,还有哪些亮点值得关注? – theigrams 的回答
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-12-04发表,共计4310字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!