谷歌 Gemini CLI 崛起，15k 星的代码生成引发行业震动，连 Cursor 都感到压力！

共计 4658 个字符，预计需要花费 12 分钟才能阅读完成。

编辑 | Tina

今天，谷歌正式推出了 Gemini CLI，这是其人工智能助手在终端环境中的新版本。这款工具的一个显著特点是其慷慨的免费使用额度：支持每分钟最多 60 次、每天最多 1,000 次模型调用。

1 令人咋舌的免费配额，是否会让 Claude 感到压力？

在谷歌于6月推出 Gemini CLI 之后，继2月的 Claude Code 和4月的 OpenAI Codex CLI后，三大人工智能实验室的“终端智能体”工具也接连问世。这类 CLI 工具不仅可以读取和修改文件，还能在终端中代表用户执行各种命令。

许多人可能曾认为这类型的终端工具会一直保持小众化，但现在看来，显然低估了它的市场潜力——许多开发者每月在 Claude Code 上的支出达到几百甚至上千美元，显示出这个“小众市场”的规模和重要性远超预期。

与 Claude Code 相比，谷歌在定价上则显得尤为“慷慨”：

通过个人 Google 账号登录，可以免费获取 Gemini Code Assist 的许可。这样一来，用户能够解锁 Gemini 2.5 Pro 模型以及百万 token 的上下文窗口。在预览阶段，谷歌提供了行业内最宽松的调用配额：每分钟最多允许 60 次、每天最多 1000 次请求，全部免费。

目前，Gemini CLI 的巨大免费配额引起了广泛关注。评论者表示：“这真是太惊人了，可能会给 Anthropic 带来极大的压力。”“确实如此——如果这些调用限制是真实的而且是免费的，市场竞争将会变得激烈。”

值得注意的是，Gemini CLI 不同于 Claude Code，且类似于 OpenAI Codex CLI，均为开源软件（采用 Apache 2.0 许可）。而且，Gemini CLI 在发布不到24小时内便获得了 15.1k 的星标。

Gemini CLI：连接编码与创作的智能终端

Gemini CLI 具备多种实用功能，包括代码编写、问题调试、项目管理、文档查询及代码解析。同时，它与 MCP（模型上下文协议）服务器相连，展现出 Agentic AI 的强大能力。

该 CLI 工具的显著优势在于，它能够与任何编辑器或集成开发环境（IDE）无缝配合，而不受特定插件的限制；更重要的是，它支持多实例并发操作。许多开发者认为，命令行交互的效率远高于其他方式。

Gemini CLI 兼容 Mac、Linux（包括 ChromeOS）和 Windows 系统。与 Claude Code 或 Codex 的不同之处在于，它在 Windows 上实现了原生支持，无需依赖于 Windows 子系统（WSL）。开发者可以通过在项目根目录中创建名为 gemini.md 的文本文件，来定制上下文和参数。谷歌高级工程师 Tayor Mullen 提到，CLI 会在识别出“需要长期保存的细节”时，自动将其记录到该文件中。

由于其开源特性，用户能够轻松访问其系统提示语。

这份系统提示词不仅清晰地界定了工具的操作方式，同时也可视为一份简明的使用指南。例如，它对代码注释的建议如下：

注释：请谨慎添加，重点阐述“为什么”进行某项操作，特别是在处理复杂逻辑时，而非简单描述“做了什么”。只有当注释能够真正提高可读性或用户明确要求时，才应添加高价值的注释。请勿更改与您的修改无关的注释内容，亦不可通过注释与用户沟通或解释您的改动。

系统默认的技术栈选择同样值得关注。

若用户未指明技术偏好，系统将推荐如下技术栈：

Web 前端：React（JavaScript/TypeScript）结合 Bootstrap CSS，遵循 Material Design 设计原则；
后端 API：Node.js + Express.js 或 Python + FastAPI；
全栈开发：Next.js（React/Node.js）与 Bootstrap + Material Design，或使用 Python（Django/Flask）结合 React/Vue.js 前端；
命令行工具（CLI）：可选 Python 或 Go；
移动应用：Compose Multiplatform（Kotlin）或 Flutter（Dart），均支持跨平台开发；同时可进行 Jetpack Compose（Android）或 SwiftUI（iOS）的原生开发；
3D 游戏：以 HTML/CSS/JavaScript 及 Three.js 开发；
2D 游戏：使用 HTML/CSS/JavaScript 技术。

在专用工具面前，Gemini CLI 凭什么胜出？

Gemini CLI 采用谷歌最新的编码与推理模型 Gemini 2.5 Pro，具备代码理解、文件处理、命令执行及动态故障排查等多种能力，显著提升了命令行的使用体验。用户可以通过自然语言进行代码编写、问题调试和工作流程优化。

此外，Gemini CLI 还能通过 MCP 接入其他谷歌服务，在终端内生成图像或视频，实现从编码到创作的全面体验。

在发布会上展示的综合演示与背后的技术理念，实际上揭示了 Gemini CLI 的核心定位——它不仅是一个编写代码的工具，更是一个连接多模态智能、融合编码与创作的“终端智能体”。这一理念也体现在其所依赖的 Gemini 2.5 Pro 模型的选择上。

谷歌Gemini 2.5 Pro：跨越编程界限的智能模型

值得关注的是，Gemini 2.5 Pro 并非专门为编码任务设计的“代码专用模型”，而是一个具备更广泛能力的通用模型。那么，为什么谷歌没有像部分竞争对手那样，为 Gemini CLI 开发一个专属的代码模型呢？在一次深入的访谈中，产品负责人 Connie Fan 与研究负责人 Danny Tarlow 分享了他们的看法。

Connie Fan 指出，虽然特定任务确实能从专用模型中获得优势，例如 Cursor 训练的代码补全模型在某些狭窄的应用场景中表现出色，但她强调，大多数实际开发任务的编码需求并不只限于代码本身。

她举了一个经典的“vibe check”请求为例：“帮我创建一个泰勒·斯威夫特歌曲排行榜的应用”——这个请求的实现需要模型不仅具备编程能力，还必须理解上下文、具备常识，甚至具备一定的 UI/UX 设计审美。“这些常识其实反映了用户真实的编程需求，”她总结道，“绝大多数通用任务无法从一个单纯的代码模型中受益。”

而 Danny Tarlow 则进一步阐释：“什么才是代码专用模型？‘代码’的定义已经超越了代码本身，它涵盖了软件开发过程中的各个环节，涉及多种信息源，有些与代码相关，有些则不是。如果只强化代码能力而削弱其他方面，反而会限制模型的表现。我们更倾向于在通用模型上实现协同发展，追求不同能力之间的融合平衡，打造一个‘通才型’模型，这才是更优的发展方向。”

实际上，越来越多的开发者已经开始注意到，Gemini 2.5 Pro 在代码生成和理解上的显著提升。

在 Claude 长期主导的讨论氛围中，不少人开始探讨“Gemini 要逆袭了吗？”、“谷歌要翻盘了吗？”的议题。社交媒体上，有用户分享了他们的开发体验：在一个大约 50 万行代码的项目中，Claude Code 生成的代码质量明显低于使用 cline 和 Gemini 2.5 Pro 的结果，且要达到相同效果，Claude 需要开发者全程进行监督。

还有开发者反馈称，在 Trae 上使用 Gemini 2.5 Pro 的编程完成率已经明显超越 Claude 3.7。有开发者表示，Gemini 修复 bug 的效率显著高于 Claude Code。

有一个 3D 渲染的处理问题，Claude Code 花费了两个小时仍未解决，然而询问 Gemini 2.5 Pro 后，仅用 5 分钟就搞定了。感觉对于那些看似难度较高的问题，可以先让 Gemini 撰写详细的说明文档，再让 Claude Code 按照其内容进行实现，这种组合使用方式可能会产生不错的效果。

这些反馈显示，过去的一年里，谷歌在编码能力上的提升已然进入了一个“质变期”。Gemini 编码产品负责人 Connie Fan 表示，Gemini 2.5 Pro 之所以能赢得良好的声誉，关键在于两个方面的系统性进步：“数据”和“方法论”。

从数据的视角来看，“代码仓库上下文”变得极其重要。如今，模型的目标不仅仅是进行简单的代码补全，而是理解并修改分布在多个文件、涉及多个模块的大型代码库：“模型应能够完成那些如果你花一小时坐在熟悉的代码库上下文中亲自进行的复杂改动。”

为了使模型真正理解这些上下文，谷歌也开始系统性地挖掘内部工程师的资源。

其中包括 Jeff Dean 等人，他们代表了一种“能力新等级”的标准，”Connie 坦言，“我们拥有全球最聪明、最出色的工程师团队，人数达到十几万，有时也非常有主见。”借助他们在不同编程语言、技术栈和经验水平上的反馈，谷歌能够覆盖更广泛的使用场景，从而提升模型在“专业开发者细腻口味”上的匹配能力。“我们过去其实并没有很好地利用这一点，但现在我们开始真正这样做了，而且效果非常显著。”

从研究的角度来看，Gemini 团队并没有将全部资源押在“单一大上下文窗口”的方案上，而是探索两条路线：一方面持续扩展上下文长度，另一方面发展具备自主搜索、推理能力的代理编程模型，模型以代理的方式与用户进行互动，甚至具备一定程度的自主性。

正如研究负责人 Danny Tarlow 所描述：