AI编程的“真相”：硬核测试全军覆没，AI写代码究竟靠不靠谱？

共计 6913 个字符，预计需要花费 18 分钟才能阅读完成。

图片来源 @pixabay

当前，AI 技术的实际运用成为了热议焦点，伴随其从技术领域走向实际应用，诸多舆论的迷雾也亟待澄清。那么，真实的情况究竟如何？以“真相”为主线，我们将持续推出系列文章，理性审视 AI 技术在应用中的现状与未来，同时欢迎产业各方积极参与讨论。

关于“AI 将取代程序员”的论调愈发盛行，AI 编程（AI Coding）也被各方赋予了“显著提升企业开发效率”的角色。然而，在大型企业和初创公司之间的产品竞争，以及企业内部应用的快速迭代中，仍处于探索阶段的 AI 编程自推出以来便遭遇了诸多质疑。

不久前，一支由国际算法竞赛金牌获得者组成的科研团队推出了 LiveCodeBench Pro 基准测试，结果令人震惊：在最新的 584 道编程赛题中，顶级模型如 GPT-4o、DeepSeek R1、Claude 3 等 20 个 AI 模型的通过率居然是——0%。（相关报道《AI 替代程序员？一项最新测试的结果恰恰相反 | 企服国际观察》）

可以说，脱离网络信息作为训练依据，无法“作弊”的情况下，AI 的编程能力远不如外界所宣传的那样出色。

而在关于 AI 编程的热烈讨论中，作为最愿意尝试新事物的程序员群体，随着实践的增多，逐渐对 AI 编程工具的神秘感有所减弱。

“出于信息安全的考虑，安全部门会禁止使用 AI 大模型，即便是本地部署。但与此同时，业务部门的经理却要求所有开发人员必须使用大模型来提升性能。各部门间的矛盾显而易见，但都认为自己的做法是合理的。公司裁员后，虽然我们绩效提升了一倍多，但实际上并没有任何工具能够帮助我们达到这个目标。”

“大多数情况下，由于数据合规和保密的原因，外部商业化的 AI 工具被禁止使用，而内部的 IDE 插件使用体验也不佳。此外，由于大企业的上下游关系复杂，潜在的业务知识庞杂，‘屎山’（结构混乱、难以理解和维护的代码）问题严重，导致我们常常需要将业务知识转化为 Prompt，这样一来，性价比就显得不高。”

“去年 Claude 推出编程功能时，我无比兴奋。想象一下：通过描述想法，代码就能自动生成，效率提升十倍。但经过半年，我发现惊喜与教训并存。最大的收获是：AI 的确很强大，但需要人类明确边界。”

“我之前从未接触过 Cursor，或许还在传统任务的完成上徘徊，殊不知在外界，提升的技能或知识已不再重要。以我个人的视角来看，现在对 AI 的使用经验极为重要，我想强调，AI 只是一个工具，如何正确使用它来帮助自己才是真正的能力。”

“人用 AI 编写代码和自己手动编写的唯一区别在于，使用 AI 时你未必意识到自己是在用自然语言编程。即便是自然语言，也不能仅仅给出需求，自然语言编程同样需要编程逻辑和规范设计。”

在与多位业内人士的交流中，越来越多的共识浮现：AI 并不能替代人类，实际上是在重塑开发者的角色。鉴于大模型的本质及产品的成熟度，部分开发人员依旧对 AI 编程持怀疑态度，这类工具尚未实现快速普及。

信任程度是关键的考虑因素。根据 Cloudsmith 发布的《2025 Artifact 管理报告》，三分之一的开发人员在每次部署之前并未审核 AI 生成的代码，这意味着“相当一部分”代码未经审查，进而为供应链带来了越来越大的安全隐患。AI 将在软件堆栈中扮演重要角色，但信任模型、工具和策略尚未跟上。而且，依靠人工审核代码是难以维持的。

更为实际的问题是，AI 编程工具的价格并不低廉，说服那些率先使用 AI 编程的企业投入更多资金，尤其是对 IT 预算已经到达上限的客户来说，实属不易。

高盛作为微软GitHub Copilot 的早期用户，为其大约 1.2 万名开发者每人订购了该工具的月度订阅，每年投入数百万美元。该客户近期也开始关注 Copilot 之外的竞争产品，这促使微软调整了定价策略：除了基于用户使用量的计费方式外，还推出了 Agent 等新功能以吸引客户追加预算。

反观国内，虽然许多大型企业和初创公司都在积极布局，但无论是关于原生 IDE 与插件的争论，还是 Agent 的实时与异步问题，除了技术产品的差距需要追赶外，商业化在当前国内市场环境中面临的挑战更为严峻。

AI 编程的核心依赖于大型语言模型，或是由像 OpenAI 的 Codex 这样的微调模型支持，能够实现代码自动补全、提供调试建议、根据自然语言指令编写完整脚本。因此，越来越多的 AI 编程工具如 GitHub Copilot、Cursor 不断涌现，并逐步融入企业的日常开发流程。

不过，一些企业已开始意识到当前 AI 编程助手所存在的问题。

在 2023 年，GitHub Copilot 因训练数据合法性问题遭遇诉讼，原因在于 AI 生成的代码可能包含来自 MTL、GPL 等开源协议下的代码，而这些代码并未经过 GitHub Copilot 的属性声明。同年，武汉大学等六所高校对 GitHub Copilot 生成代码的安全性提出质疑，指出其生成的代码可能存在安全漏洞，开发人员在接受这些代码前，应进行严格的安全审查。

今年 3 月，AI 编程软件 Lovable 被发现存在重大漏洞：使用 Lovable 构建的应用可能泄露用户个人信息，并且可能泄露 Lovable 客户用于访问其他服务的密码。随后，这种问题被 Lovable 解释为“并非其独有，任何面向非专业开发者的 AI 编程产品都面临类似的问题。”为了平息事态，Lovable 推出了一项“安全扫描”新功能，以检测漏洞。

笔者注意到，许多海外企业公开表示，AI 生成的代码有时并不如预期般运行，甚至可能使其更容易受到黑客攻击或数据泄露。如果直接将 AI 生成的软件用于系统运行，企业可能会面临缺陷产品的风险。

根本原因在于，AI 并不能真正理解代码的逻辑，而是基于概率模型生成看似合理的代码，这意味着 AI 编程可能潜藏错误或安全漏洞。

为防止 AI 生成代码可能带来的风险，一些企业已经明确告知其工程师不得发布任何未经人工审核的软件。

营销分析软件公司 Amplitude 制定了一项政策，要求所有 AI 生成的代码在客户使用之前必须经过审核。同时，Amplitude 更倾向于使用托管在自有服务器上的模型，而非依赖云端数据中心。此外，Amplitude 还会提前提示模型在生成代码时的安全性有限，或要求模型事后检查自身代码是否存在缺陷。

在国内市场，这种情况也在逐渐显现。

对于拥有强大自研团队和能力的互联网企业，出于安全和内部研发的需求，它们往往会优先考虑自研工具。

字节跳动公开表示，目前超过 80% 的工程师正使用其开发的 TRAE 产品进行辅助开发。然而，早在 5 月，字节跳动的安全与风控部门曾发布内部邮件，出于防范数据泄露风险的考虑，自 6 月 30 日起，将逐步禁用第三方 AI 开发软件，包括 AI 编程工具 Cursor、Windsurf 等，并将 Trae 作为替代方案。

美团在 6 月初推出了 AI 编程工具 NoCode，该工具整合了美团自研的千亿参数规模模型 LongCat。作为一款旨在服务内部员工，并希望将能力进一步开放给外部人员的软件，美团基础研发平台智能开发工具负责人俞超向笔者解释道，“大公司自研工具往往源于自身需求，而多数纯商业软件无法满足企业内部研发场景，因此企业需对自身研发流程进行深度优化。”

对于企业而言，在一些需要通过外部采购迅速构建的业务系统领域，必须在确保数据安全的前提下，兼顾整个研发流程及系统运维的便捷性。

“大家都知道汽车行业竞争异常激烈，功能的快速开发受到高度重视，同时维护周期也非常漫长。因此，车企对效率的要求极高，对质量的标准也更为严格。”蔚来汽车的资深工程师表示，近两年来，蔚来汽车逐步开始将 AI 编程工具运用于模板生成、单元测试自动生成等内部研发场景。

2024 年初，蔚来汽车由微软 Github Copilot 切换至阿里云通义灵码。当谈及为何最终选择通义灵码时，揭晓指出，核心在于代码的安全性问题，“尽管之前内部曾小范围使用过一段时间的 Copilot，但考虑到数据跨境风险，标准化的海外产品实际上并不适合在全公司内大范围推广。”

回顾此次国内选型，能够在 AI 编程领域投入资源的厂商数量并不多。背靠大厂资源的通义灵码在产品及模型层面更接近于海外产品，且在工程化层面成熟度较高。“不可否认，国外模型在某些方面确实有优势，回复更简洁，准确性在特定场景下表现更佳。但是我们也非常重视产品功能上的细节，特别是在产品设计和安全性方面的前瞻性。”揭晓补充道。

蔚来汽车确实使用了通义灵码，但目前尚未采用其提供的私有化部署解决方案，即将大模型和服务部署在企业内部网络，形成与外网的隔离。

揭晓告诉笔者，“虽然这种方案能够实现 100% 的安全，但目前未采用的核心原因有两点：第一是成本较高，第二是升级和维护过程繁琐，网络隔离需要厂商不断派人进行升级维护。”

对于技术自信的开发人员而言，AI 编程就像一个无法了解代码来源及工作原理的“黑箱”，如何推动他们深入使用呢？

几个月前，微软高层积极推动内部员工更多地运用 AI 编程，以加速软件开发的进程。根据消息，微软多个致力于提升研发效率的团队已经实施了一些监控工具，旨在追踪利用 Copilot 生成的代码数量。

与此同时，微软宣布了一项涉及 6000 名员工的裁员计划，其中包括了软件工程师的职位。尽管微软的发言人在声明中指出，公司并非意图用 AI 替代员工，而是希望通过技术提升工作效率，但显而易见的趋势是，工程师们必须转型为“人工智能提示工程师”，向 AI 编程助手发出指令，而不再是传统的从头编写代码的角色。

针对银行业客户的实践经历，神州信息新动力数字金融研究院的副院长薛春雨分享了他的看法。他表示：“目前，银行业对科技驱动持积极态度，但在实际实施中仍面临挑战：首先是设计文档的问题，大模型训练所需的上下文数据明显不足；其次是开发人员的接受度，以及银行内部降本增效的阻力；最后是银行特有的业务场景，比如数据开发与交易开发之间的差异。”

俞超指出，“目前国内 AI 编程的渗透率仍较低，许多人尚未充分利用这一技术。”他观察到，存在两类对 AI 编程持消极态度的群体：一类是工作年限较长且自认为代码能力强的人，他们不愿尝试新的工具；另一类虽然有尝试的意愿，但由于自身代码可读性差，甚至缺乏注释，往往无法有效使用 AI。

尽管如此，俞超对 AI 编程的未来持乐观态度。他认为，“未来具备良好编程基础、强烈意愿及实践能力的程序员，将在 AI 编程时代中具备显著的核心竞争力。同时，随着模型能力的提升，开发者可能不再需要具备特别强的编程技能，就能完成一些端到端的开发。”

在美团内部，NoCode 工具于去年年底上线，产品和设计团队用来绘制原型，而 HR 及行政等非技术人员也开始借助这一工具解决工作中的问题，甚至有人在没有编程经验的情况下，通过几百轮对话构建了完整的系统。

然而，许多人可能忽视了工具平台统一性的重要性。揭晓指出，“至少要确保在同一部门或公司内部实现 AI 编程工具的一致性。”例如，编写培训文档时，往往难以在不同工具上进行再现，自定义 Prompt、项目规范、RAG 等的维护也相当繁琐。

揭晓进一步强调，“即使 AI 能够生成代码，但这并不意味着其质量和效果能够满足公司的迭代和维护需求，通常还需要优秀程序员对整体架构进行把关。”

可以看出，企业客户目前对大模型的热情高涨，但节省开发人员成本以及生成代码的可用性依然是亟待解决的问题。

一位开发者向笔者反映，在使用 AI 的过程中，最让他感到棘手的是 AI 并不擅长进行高层次抽象设计，更适合完成具体任务。此外，从价值的角度来看，很难准确评估 AI 编程对于企业研发效率和质量的提升，只能说“在某些场景下，其价值较为明显，但距离理想状态仍有差距。”

随着 AI 编程的落地速度加快，一些共识也在潜移默化中形成。笔者整理结合访谈发现，业内大多数专家都提到了“基础模型能力提升对 AI 编程工具的影响。”

去年，Cursor 的开发商 Anysphere 推出了自研模型 Cursor-Fast，OpenAI 则计划以 30 亿美元收购 AI 编程助手开发商 Windsurf，后者随后发布的 SWE- 1 模型旨在提升模型的自主能力并控制成本。

腾讯云开发者产品总经理刘毅在介绍其代码助手 CodeBuddy 时提到，下一阶段研发提升的瓶颈主要有三方面：大模型对输入指令的感知不够精准、对复杂工程的理解与处理能力不足，以及软件工程各阶段的协作工具与信息传递仍然割裂。

在 5 月底，通义灵码的产品技术负责人陈鑫（神秀）在讨论通义灵码 AI IDE 升级时指出，“在未来的 AI 编程领域，必然是端到端的竞争，即应用 + 模型 +AI 基础设施的整体能力，只有这样才能实现更好的性价比和自主优势。”

俞超也对笔者表示，“业内普遍达成的共识是，预计到 2027 年之前将实现完整的端到端自动化。回顾过去两年，AI 编程的进步主要得益于底层模型的能力提升。随着模型能力的增强，出错的概率将逐渐降低，目前许多技术方案和架构可能会随着技术的进步而逐步被淘汰。”

例如，Cognition 公司的 Devin 早期就已推出，但由于模型能力不足，效果未能跟上。当每个阶段的模型窗口、推理能力和推理速度未达到时，需要通过大量工程来解决问题。

俞超的判断是，“初期模型能力较弱时，可能需要大量工程化技术进行优化，但未来随着模型的发展和推理能力的提升，应用架构将变得更加简单，不再依赖大量工程优化来弥补模型缺陷。”

如今，AI 编程在国际市场上已形成一场激烈的竞争：

大模型公司 Anthropic 于 2 月推出了自家的 AI 编程工具 Claude Code，最近又突然切断了 Windsurf 对 Claude 系列模型的访问。

在 Anthropic 与 Windsurf 的较量之外，Cursor 也在迅速崛起，其年化收入已突破 5 亿美元，与 GitHub Copilot 相持不下。

同样，微软试图绕过 OpenAI，选择 Anthropic 的 Claude 模型，而 OpenAI 则希望阻止微软获得 Windsurf 的知识产权，指控其反竞争行为。

与国外竞争的激烈相比，国内的 AI 编程产品或因生态和产品的不成熟而显得竞争关系较为温和，且缺乏明确的商业化方向。

国内主要云厂商纷纷推出自己的 AI 编程工具，AI 大模型开发企业也推出了微调模型或 AI 代码工具，而一些 AI 编程初创公司则在探索 Agent 创新应用。

在初创公司中，YouWare 尤为引人关注，该公司已筹集 2000 万美元融资，投资者包括五源资本、真格基金和高瓴资本等，截至去年 11 月，其估值已达 8000 万美元。YouWare 的创始人明超平是其核心产品的负责人。

在一次访谈中，他提到，“Cursor、Windsurf 等公司在服务专业程序员方面做得很好，但对于半专业人士的需求仍有很大的未开发空间。这些人可能连一行代码都不会写，但出于需求或创造力，他们渴望进行开发。”

YouWare 基于 Claude 3.7 Sonnet 模型，并正逐步过渡到 Claude 4 Sonnet。目前，该公司的核心问题在于支撑模型的计算资源成本相当高，每天处理数千项任务，每项用户任务的平均处理成本在 1.5 美元至 2 美元之间。

从目前的情况来看，国产工具的一个优势在于，中美双方在模型和产品上的差距正在逐步缩小。

神秀指出，“目前 AI 编程市场的渗透率正在快速提升。在这一差距逐渐缩小的背景下，国产 AI 编程工具不仅具备数据安全与隐私合规的优势，还有性价比及 IDE 生态的选择性优势。”

俞超在对比几款海外 AI 编程工具后得出结论：“除了模型之外，海外产品有两点值得借鉴：一是速度，尤其是 Cursor 的产品迭代速度非常快，有时一天甚至会推出多个版本；二是对产品细节的精雕细琢。”这一点在 Cursor 的表现上尤为明显，例如其用户界面和操作流程都能让开发者实现沉浸式编程。相比之下，国内产品不仅需打磨好自身产品，提升模型能力，更需在此基础上进一步培养用户的付费意愿。

就在半月前，Cursor 的 CEO Michael Truell 在接受 Y Combinator 的采访时提到，AI 编程工具的护城河在于用户规模和产品的快速迭代。

竞争或许才刚刚开始，但可以肯定的是，AI 编程必须先解决核心的技术工程化难题，才能在市场中占据一席之地。（本文首发于钛媒体 APP，作者 | 杨丽，编辑 | 盖虹达，张申宇、张帅对本文亦有贡献。）

AI 落地的真实情况究竟如何？各种观点层出不穷，我们希望能多听到实事求是的声音。

如果你是 AI 编码的使用者、部署者，甚至是受害者，我们非常欢迎您分享第一手的感受和体验。

如果您有独到的见解，欢迎联系我们参与讨论，表达您的观点。

若观点足够精彩，我们期待在九月的数字价值年会上邀请您到三亚分享，您将有机会与更多志同道合的实干者相遇。