AI编程为何能迅速普及与应用？

共计 6364 个字符，预计需要花费 16 分钟才能阅读完成。

编程领域的 AI 革命：从辅助到全自动化的演变

尽管 2024 年整体 AI 应用的爆发尚未成型，但编程行业却展现出不同寻常的活力。AI 编程工具正在推动大型模型的实际应用，显示出显著的市场适应性（Product Market Fit，PMF）。

从市场趋势来看，编程领域的 AI 发展尤为迅速，涌现出一批估值迅猛上升的 AI 初创企业，如 Cursor、Windsurf 和 Devin 等，它们的核心业务均围绕编程智能体展开。2024 年 12 月，Cursor 的母公司 Anysphere 宣布成功完成超过 1 亿美元的 B 轮融资，融资后估值已达 26 亿美元。 而源自北京大学软件工程研究所的硅心科技，也专注于企业私有大模型的部署，并在今年 1 月成功进行了 B 轮融资。

图|Cursor 融资信息（

在实际应用层面，AI 编程的渗透程度已经达到了惊人的高度。据谷歌的统计，超过 25% 的新代码是由人工智能生成的。而 Github 则指出，目前新编写的代码中有 30% 是依靠 Github Copilot 辅助完成的。除了大型科技公司，许多个人开发者也通过 AI 工具显著提升了开发效率，编程能力得到了全面提升。仿佛在短短一夜之间，程序员们都借助 AI 为自己“武装”起来了。

与此同时，模型性能的持续突破也值得注意。在软件风格基准测试 SWE-bench 中，GPT-o3 模型的准确率达到了 71.7%，较 GPT-o1 模型提升超过 20%。在 CodeForces 竞赛中，GPT-o3 模型的 ELO 分数更是高达 2727，远超 O1 的 1891 分，展现出强劲的技术进步。模型的演变似乎仍在快速推进。

那么，是什么原因让编程领域率先实现了 AI 的有效落地呢？

AI 在市场契合度（PMF）方面的成功只是结果，而非根本原因。其背后深层次的原因在于编程领域独特的“可信验证”机制。

为了更好地理解这一问题，我们可以首先回顾 AI 编程的发展现状。

AI 编程工具的演变历程

AI 编程工具的发展具有明显的自动化演进轨迹，目前主要可以分为三类，依据其自动化程度而定：

第一类是以早期的 Github Copilot 为代表的代码补全工具。 这类工具主要提供实时代码提示和自动补全功能，尚不能主动生成代码，因此其自动化水平较低。随着技术的持续进步，这类工具正逐步向更高级的智能编程助手转变，融入更多的自动化特性。

第二类是 Cursor 和 MarsCode 等半自动编程工具， 标志着 AI 编程迈入了更高的阶段。这类产品不仅提供代码补全服务，还创新性地引入了“应用”（Apply）机制，使得 AI 生成的代码能够一键集成到目标文件中。用户无需再手动复制代码并进行调整，尽管自动化程度有所提升，但依然需要开发者的参与与判断，体现出“人机协作”的特征。

第三类则是以 Devin 为代表的全自动编程工具。 这类工具具有最高的自动化程度，Devin 被誉为全球首个 AI 程序员，能够自主调试和部署。其具备构建应用以及自主调试的能力，支持 AI 规划任务分解并自动部署代码。用户只需下达指令，便可静待结果，仿佛与真实程序员进行协作。

AI 编程工具的发展历程清晰展示了从辅助到自主的演变过程。第一代代码补全工具专注于提升专业程序员的编码效率，通过智能补全实现段落级的开发加速。随后，Cursor 等半自动工具通过代码直接应用等功能，进一步拓展 AI 能力，在保留人工控制的基础上显著提高了开发效率。而 Devin 的出现则开辟了全自动编程的新模式，实现了从需求理解到代码部署的全链条自主开发。

这个演变过程本质上反映了 AI 编程范式的重要转变：从“实时交互”走向“批量处理”。这一转变不仅降低了用户的参与频率，更为关键的是大幅降低了编程的门槛，使得 AI 编程工具的受众得到了显著扩展。

代码生成的复杂性？

编程中的 AI 应用：可信验证机制的深远影响

许多人常常评论：“代码的关键字很少，规则也固定，因此生成起来更容易。”乍一看，这似乎是个合理的观点。与自然语言浩瀚的词汇库相比，编程语言的关键字数量确实显得微不足道，样本空间也随之缩小。

然而，这种“词汇少就容易”的推理其实是有缺陷的。如果真是如此，那么数学问题应当是最简单的——毕竟数学符号数量更少，规则也更为严谨。但实际情况恰恰相反，大型模型在数学领域的表现常常不尽如人意。

这种误解的根本在于混淆了“生成”和“应用”这两个截然不同的阶段。在生成阶段，编程语言的有限词汇确实限制了模型的选择空间。但在实际应用中，代码的复杂性远远超过了自然语言。

在交流中，用户对大型模型的容忍度相对较高。模型可以出现语法错误、逻辑混乱，甚至前后不一致，然而我们依然能够从中提取出有用的信息，甚至未必察觉到语法上的缺陷。但代码生成则是另一个层面的挑战——如同解数学题，代码要么能顺利执行，要么根本无法运行，不存在“基本正确”或“大致可用”的模糊状态。每一个分号、缩进、变量名，都需要精确无误。 正是这种对精确性的严格要求，使得编程任务的难度显得更高。

可信验证机制

AI 编程成功的核心在于具备一种可信的验证机制。 这种机制对其影响深远。

什么是可信验证？简而言之，它是一种快速且客观地评估 AI 输出结果有效性的验证方式，具备以下三个关键特征：

1. 客观性： 验证的结果不依赖于个人或 AI 模型的主观判断；

2. 即时性： 能够迅速得到验证结果；

3. 确定性： 结果是非黑即白，没有模糊地带；

这种可信验证机制对 AI 编程领域的影响主要体现在两个方面，使其达到了“既能用又好用”的状态。

从用户体验的角度来看，编程领域的可信验证机制创造了一个几乎完美的用户体验闭环。 用户在使用过程中几乎没有障碍。

编写的代码需要通过编译器转化为机器可执行的程序。统一的编译器会针对同一种语言，按照严格的语法规则工作，这就确保了客观性。

编译结果通常也是二元的，只有“可以运行”和“不能运行”两种结果，没有模棱两可的情况。这使得用户无需主观判断，可以完全依据客观的结果做出决策。此外，编译过程一般较短，用户能够及时得知 AI 生成的代码是否有效。

这种依赖编译器的可信验证几乎不需要用户的专业知识，只要简单地点击“运行”按钮即可。这极大地扩展了 AI 编程工具的用户群体，解释了为什么现在许多零基础用户开始尝试利用 AI 编写程序。

所谓“零基础用户”是指那些不懂编程但希望开发应用的人。这部分用户对可信验证的需求尤为迫切，因为他们无法自行处理异常情况。这一概念同样可以推广至 AI 的其他应用领域。

在所有 AI 应用场景中，编程领域的验证机制尤为理想，这也解释了为什么 AI 编程工具能够率先实现规模化应用，提供了一个可靠、高效且门槛低的使用环境。

从模型的角度来看，为什么大型模型在编程领域的进步如此显著？或许答案让人意外：在当前训练数据普遍短缺的背景下，编程可能是大型模型少数几个可以持续进步的领域，这一切都源于可信验证机制的存在。

AI 编程的挑战与机遇：从数据缺乏到代码质量

首先，我们来探讨大规模模型训练所面临的难题。尽管业界频繁宣传其模型在编程和数学领域的突破，但却鲜有提及“人工智能的表达越来越人性化”。这其中隐藏着一个不为人知的事实：自然语言的训练数据正遭遇枯竭。在大模型的训练过程中，数据的质量与模型的架构同样至关重要。数据的短缺直接导致了模型能力提升的缓慢。

为了应对这一困境，大型模型的开发者通常会采取两种策略：其一是通过网络爬虫或人工撰写来创造新的数据；其二是利用更为先进的模型来生成合成数据。然而，这两种方法都有明显的缺陷：人工生成需要高昂的成本，而合成数据的质量可能导致模型的崩溃。大量研究表明，劣质的合成数据会使模型的输出逐渐偏离人类的表达方式，从而加重幻觉问题。

图|合成数据可能导致模型训练崩溃（

在业界，主要依赖两种方式来评估合成数据的质量：一是使用更强大的模型进行筛选，二是依靠人工主观判断。然而，这不仅成本高昂，而且难以实现规模化，且其可靠性往往无法得到保障。一旦涉及主观意识，统一标准的设定便变得极为困难，导致数据质量参差不齐。

有了可信验证机制，代码合成数据的质量下限得以有效保障。

无论是人类还是 AI 编写的代码，都必须满足正确性这一客观标准。只要代码能顺利编译并执行，便可视为两者代码的等价。关键在于谁的质量更高。这一机制确保了合成数据具备基本的训练价值，宛如成千上万的初级程序员在不知疲倦地生产数据。

可信验证机制促成了合成数据的良性循环：模型生成代码，验证机制进行筛选，合格代码反馈至训练集。值得一提的是，通过这种方式生成的代码，其质量甚至超过了许多 GitHub 上的代码。这种低成本的质量保障机制，确保了模型在代码领域的持续进步。

应用端与模型端的双向价值完美地解决了 AI 商业化的两大难题：用户是否愿意使用，以及模型如何保持进步。尤其在企业级市场，可靠性一直是最大的痛点。而可信验证提供了完备的解决方案：输出结果可控且可验证，结合自动化测试框架与现有的代码审查机制，显著降低了应用风险。此外，对零基础用户的友好性使得 AI 编程迅速突破了传统界限。这也能解释为何 AI 编程的普及率如此之高。

AI 编程面临的挑战

尽管 AI 编程具备独特的可信验证机制，但仍然存在诸多问题。

首先，AI 生成的代码质量亟待提升。尽管可信验证机制为代码质量提供了基本保障——至少能运行的代码是“可用的”，但“可用”并不等同于“高效”。目前 AI 生成的代码仍面临多个层面的质量挑战，例如代码风格不统一、性能不稳定，以及在复杂项目中难以管理复杂的依赖关系。

大型语言模型在代码生成中仍然存在幻觉问题与不稳定性，这可能导致代码风格和命名规则的混乱，甚至产生歧义。虽然可以通过提示词进行一定的约束，但效果有限。这种风格问题表面上对程序运行影响不大，但在后期增加了人类的阅读难度，甚至连 AI 也可能被自己的代码所困扰。严重时，可能导致程序的持续开发变得困难。

可信验证虽然可以确保程序的基本运行标准，但实际的软件往往需要根据特定场景进行优化。目前的大型语言模型在场景评估与针对性优化方面仍显不足。这一局限性在复杂项目中尤为突出：在进行软件优化时，架构的权衡与优化必须基于实际环境进行决策，以识别存在的问题，而 AI 目前尚不具备这样的分析能力。

因此，零基础用户通常只能依赖 AI 完成一些简单的程序开发工作，例如快速搭建网站或小程序。然而，当需要扩展功能或深入开发时，往往会遇到瓶颈。 当用户对软件结构缺乏深入理解时，仅依靠 AI 仍无法有效构建和优化复杂的软件架构。 虽然 AI 能够迅速实现框架，但核心功能的开发往往需要大量的重构与优化工作。

其次，AI 编程对不同编程语言的支持并不均衡。对于灵活性较高、容错率较大的语言（如 Python），支持效果显著优于其他语言，这主要有两个原因：

首先是训练数据量的差异。Python 作为当前 AI 时代最受欢迎的编程语言，开源社区为其提供了大量高质量的训练数据，而其他语言的数据量则相对较少。

图|Python 已经成为开源社区最受欢迎的语言（

其次是语言特性的影响。Python 的语法相对灵活，容错性高，这使得 AI 更容易生成有效代码。相比之下，Java 等强类型语言的语法约束更为严格，对代码生成的要求也更高，因此成功率相对较低。

第三个议题是，尽管 AI 编程工具追求高度的自动化，但“批处理”开发模式并不一定是最佳选择。这种开发模式表面上提升了效率，然而却削弱了用户对代码修改的实时掌控，反而可能加重认知负担。Devin 在这方面的表现尤为突出。

（

以 Devin 为例，这一被认为是全球首个 AI 程序员的工具，声称具备全栈开发、自学新技术、构建和部署应用及自主调试等多项能力。首次使用时，这种全自动开发的体验确实令人惊叹。仿佛拥有了一位 AI 实习生，能够独立完成任务，让我得以专注于其他事务。

然而，实际使用中，相较于 Cursor 等半自动 AI 编程工具，Devin 存在两个致命缺陷：首先是反馈周期过长，用户需要花费较长时间才能确认结果的正确性。如果指令出错或思路错误，早期的等待便成了无谓的时间消耗，增加了沉没成本。其次是调试成本的显著上升。AI 生成的代码越多，理解和调试的难度就越大，往往难以判断是代码生成的问题，还是操作失误。这对于缺乏基础知识的用户尤为棘手。

在软件开发的整个生命周期中，缺陷修复的成本与发现问题的时间呈现指数关系。发现问题越晚，修复的成本就越高。软件开发从需求分析、系统设计到代码实现、测试验证和运行维护，都是密切相关的过程。随着 AI 接管的工作越来越多，问题的发现环节也随之推迟。而此时，修复不仅仅涉及到某个函数，可能还会引发连锁反应，甚至导致架构设计的缺陷，需要进行整体重构。开发者在此阶段往往需要深入理解 AI 生成的代码，才能进行有效的修复。

图|不同阶段修复 Bug 的成本（

我进行了一个实验：以零知识用户的身份，完全依赖 Devin 编写代码，然后使用 Claude 进行调试。经过实际体验，Devin 花费了超过 20 分钟编写程序，而 Claude 则花了一个小时进行修复，核心功能依然未能正常运行，最终不得不重新开始。

与自动驾驶不同，在开车时你可以随时接管，因为车辆的状态是显而易见的。然而在编程中，如果 AI 走错了方向，那么之前的所有努力将会毫无意义。那几十分钟的等待，真的是纯粹的时间浪费，最终造成的是一堆你和 AI 都无法解决的代码。

AI 编程的未来展望：更高水平的可信验证

目前的应用端可信验证仍处于初级阶段，主要关注代码是否“能够运行”，考虑的是最终输出结果。但随着技术的进步，将会出现更为复杂的可信验证方法，涵盖更多的考量因素。

例如，现代的 IDE 已经能够自动检测性能风险和安全隐患。这些自动化的质量评估机制同样可以应用于大型模型，具有客观性和即时性，只是验证维度更加多样。

将 DevOps 实践等现代软件工程方法引入 AI 辅助开发流程，建立更健全的代码质量保障体系，确保 AI 生成的代码不仅能够正常运行，还能符合现代软件工程的高标准。及时进行测试并反馈。自动化测试框架能够生成测试用例、检查边界条件、验证业务逻辑，甚至对代码性能进行检测，从而提供另一层次的可信验证。

这些客观的质量指标也可以反馈到模型中。随着验证机制的逐步完善，AI 编程将会从“基本可用”发展到“高质量”，像 Devin 这样的全自动编程工具也将迎来更广泛的应用空间。因为它代表了 AI 编程的未来方向：真正实现开发者的解放，让人类可以专注于更具创造性的工作。尽管我们尚不清楚具体何时能够实现。

然而，我认为这种 AI 编程仍然不适合零知识用户，其未来可能会极大提升程序员的工作效率。对于零知识用户，或许零代码平台（例如 Dify）更加可靠，因为它们无需担忧“能否运行”的问题。

AI 编程领域的成功经验给我们一个重要启示：在任何领域成功应用 AI，都必须建立有效的可信验证机制。

虽然并非每个领域都能像编程那样拥有编译器这类精确的验证工具，但我们可以借鉴这一思路，构建适合各自领域特点的验证体系。这一验证机制不需要一开始就完美，但至少要能够提供基本的可用性判断。模型的上限固然重要，但在大模型的应用中，模型的下限同样不可忽视。 可信验证不仅能降低 AI 应用的门槛，还能为模型优化提供可靠的反馈数据。 理想的 AI 领域场景，应同时具备“用户友好”和“模型可进化”这两大特质。

参考文献

1.https://www.nature.com/articles/s41586-024-07566-y

2.https://github.blog/news-insights/octoverse/octoverse-2024/

编辑 / 排版：何晨龙

来源：百家号

原文标题：为什么 AI 编程能快速落地？

原文链接：https://baijiahao.baidu.com/s?id=1821687025259605977

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！