共计 2225 个字符,预计需要花费 6 分钟才能阅读完成。
Cursor 的更新让人失望,不再能轻易薅羊毛了,有没有其他解决办法或者更优秀的替代方案呢?
大家好,我是十二。专注于分享 AI 编程方面的内容,欢迎关注。
就在前几天,Cursor 推出了全新的 OpenAI Codex 模型,命名为 GPT-5.1-Codex-Max,并且宣布在 12 月 11 日之前可以免费体验。

此外,Cursor 团队还专门撰写了一篇文章,详细介绍了为使 GPT-5.1-Codex-Max 模型在 Cursor 中运作更为顺畅所做的优化。
这篇文章内容丰富,包含了许多有价值的细节,大家一起了解一下吧。
构建可靠的 agent harness
在 Cursor 中,harness 是一个至关重要的 agent。每个模型都需要依据特定的指令进行微调,以提高输出质量,避免模型懈怠,并更有效地调用各种工具。
由于模型在训练过程中接触到的模式各不相同,直接上线往往会面临“水土不服”的问题,因此 Cursor 团队必须对这些模型进行“本地化调校”。
团队利用内部评测系统 Cursor Bench 不断对模型进行测试,最终通过成功率、工具调用能力和用户反馈来评估模型是否准备好投入使用。
Cursor 团队对 Codex 的重要更新
OpenAI 的 Codex 系列模型是他们最新前沿技术的某些变体,专门针对智能编码场景进行训练。为了确保其在 Cursor 中的稳定性,Cursor 团队进行了多项针对性调整。
1. 更符合 shell 的操作习惯
Codex 的训练偏重于 CLI/shell 的工作流程,因此它更加习惯于通过 shell 查找和编辑文件。
为了避免 Codex 在 Cursor 中随意执行 shell 命令,Cursor 团队将工具名称修改为更接近 shell 工具的形式(例如 rg),并明确指示模型:有工具可用时优先使用工具,而不是直接运行 shell 命令。
Cursor 的沙箱机制可以确保即使 Codex 真的执行了 shell 命令,也不会引发安全隐患。这样的设计既保持了 Codex 的使用习惯,又增强了操作的可控性。
2. 控制“推理摘要”的输出
在执行过程中,Codex 会输出一些“推理摘要”。Cursor 团队希望这些信息能帮助用户了解进度,但又不希望过于冗长,因此在提示中进行了规范:
推理摘要保持在 1–2 句
仅在发现新信息或策略切换时出现
不要写“我正在解释给用户听”这种元话语
值得注意的是,Cursor 团队发现减少这些中途信息的要求,反而能提高 Codex 的最终输出质量。
3. 处理 linter 错误的能力
Cursor 团队为 agent 提供了读取 linter 错误的工具。理论上,模型在修改代码后应主动检查 lint,但实际情况是,单纯提供工具定义是不够的,还需要明确告知模型“何时使用该工具”。
因此,Cursor 团队给出了非常明确的指令,例如:
在进行实质性编辑之后,使用 read_lints 工具检查最近编辑的文件是否存在 linter 错误。如果你引入了任何错误,并且你能很容易地找到解决方法,就去修复它们。
这种“字面化”的指示反而最为有效,使得 Codex 能够主动执行标准化流程。
4. 维持推理轨迹的完整性
这一点至关重要。Codex 在执行工具调用时依赖于内部推理轨迹以保持计划的一致性。如果这些轨迹丢失,模型会遗忘以前的操作和原因,从而导致性能显著下降。
实验表明,推理轨迹的丢失会使 Codex 的性能下降近 30%。为了避免这种情况,Cursor 团队引入了机制,确保推理轨迹能够在多轮交互中正确传递,从而保持模型的计划连贯性。
5. 引导模型主动采取行动
Cursor 的目标是:除非用户明确表示“不要动代码”,否则 agent 应该尝试直接解决问题,而不是反复询问。
团队在提示中强调:
除非用户明确要求查看计划或其他明确表示不应写代码的意图,否则假定用户希望你进行代码更改或运行工具以解决问题。在这些情况下,把拟议解决方案输出为消息是不合适的,你应该直接去实现更改。如果遇到挑战或阻塞,你应该尝试自行解决。
这一调整使 Codex 的行为更加果断,减少了用户的等待时间,提升了体验的流畅度。
6. 避免提示之间的冲突
由于 OpenAI 模型对提示顺序非常依赖(system > user > tool),Cursor 团队必须非常谨慎地处理 system prompt 中的每一句话,以免无意中削弱模型完成任务的动力。
例如,若 system prompt 强调“节省 tokens”,这条信息可能会影响模型对更复杂任务或大规模探索的执行意愿。
有时,Codex 会固执地停下来说:“我不应该浪费 tokens,继续这个任务不值得!”
因此,Cursor 团队调整了 harness,以确保提供的提示不会包含可能与用户信息相矛盾的指令。否则,Codex 可能会进入一种不愿意遵循用户请求的状态。
总结
从这次 Codex 的适配过程中,我们可以看出,随着模型能力的提升和 agent 行为的复杂化,对工具链、提示设计和推理轨迹管理的要求也随之增加。
Cursor 团队的做法为我们提供了一个值得借鉴的实践示范——不仅关注模型本身的性能,还注重模型在产品环境中的行为稳定性,才能最大限度地发挥每个模型的潜能。


希望团队能考虑推出一些使用指南,帮助大家更好地适应这些新变化。