《AI编程调查引发300万热议：开发者信心十足提速20%，实测却反降19%！》

没有评论

共计 2488 个字符，预计需要花费 7 分钟才能阅读完成。

机器之心报道

编辑：杜伟

在大规模模型的崛起背景下，人工智能编程领域正在经历巨大的变革。

随着各种编程模型和工具的出现，它们通过代码自动补全和调试等多种实用功能，为开发者的日常任务提供了显著的便利，并在一定程度上提升了开发效率。

然而，事情并不如表面上看起来那么简单，AI 编程工具的真正影响究竟如何呢？

最近，一家名为「METR」的非营利AI研究机构开展了一项随机对照研究，目的是探讨AI编程工具对经验丰富的开源开发者的工作效率的影响。

令人惊讶的是，结果却与开发者最初的预期截然相反：本以为使用 AI 工具可以提升工作速度 20%，但实际上他们的效率反而下降了 19%。这一发现迅速在社交媒体 X 上传播，阅读量几乎达到了 300 万。

如图所示，与专家的预测和开发者的直觉相悖，预计在2025年初，AI 编程工具将减缓经验丰富开发者的开发速度。在这次随机对照实验中，16位具有中等AI编程经验的开发者完成了246个复杂项目的任务，他们的平均开发经验为5年。

对于这一研究结果，网友们的反应各异。有些人表示深有同感，并表示赞同。

一些人对METR的衡量标准表示怀疑，认为「任务完成时间」并不能等同于「生产力」，而且中等AI经验的开发者在复杂项目中的测试设置也显得不够合理。

也有建议指出，应该研究普通用户（非开发者）在使用AI编写软件时，效率提升的程度。

研究背景

虽然编码和智能体基准测试在一定程度上有助于理解AI的能力，但通常是以牺牲真实性为代价，追求规模和效率。因为这些任务是自成一体的，不需要对先前上下文的理解，并且通过算法评估，往往无法反映出许多重要的能力。这些特性可能导致基准测试高估AI的实际能力。

另一方面，基准测试在没有真人实时交互的环境下进行，因此即使模型在某些方面取得了显著进展，它们仍可能无法完成实际任务，比如一些在真实场景中人类能轻松解决的瓶颈。因此，将基准测试结果直接转化为现实世界影响的难度不小。

METR指出，评估人工智能对程序员生产力的影响，能够为基准测试提供重要的补充证据，从而深入理解AI在加速软件研发方面的整体作用。

研究方法、结果及原因分析

为准确评估AI工具在软件开发中的实际影响，METR邀请了16位经验丰富的开发者参与研究。这些开发者来自于多个大型开源项目，平均每个项目获得了22k+的星标和超过100万行的代码贡献，且在该领域有多年的实践经验。

参与者提供了246个他们认为对项目有价值的真实问题，这些问题主要涉及他们日常工作的bug修复、功能开发和代码重构等任务。

接下来，METR随机分配这些问题，并决定是否允许开发者使用AI工具。若允许使用，开发者可以选择任何他们偏好的工具，在研究期间主要使用Cursor Pro与Claude 3.5/3.7 Sonnet进行协作。

反之，若禁止使用AI，他们则需要在没有生成式AI的情况下完成任务。开发者在执行每项任务时（平均耗时约两小时）进行了屏幕录制，并自行报告完成所需的时间。

当然，为了参与这一研究，METR以每小时150美元（约合人民币1080元）的标准向开发者支付报酬。

研究结果显示，当开发者被允许使用AI工具时，解决问题所需的时间竟增加了19%。这一下降的效率与专家的预期及开发者的直觉形成了鲜明对比。

这种差距令人震惊：开发者原本期望AI能够使其工作速度提高24%，即便在遭遇效率下降后，他们依然相信AI能为他们提升20%的效率。

下文将展示开发者预测的平均完成时间与实际观察到的实现时间的对比。我们能够清晰地看到，当开发者使用AI工具时，他们所花费的时间明显增长。

在允许使用 AI 的情况下，开发者在主动编程和信息检索上的时间有所减少，反而更多地集中在撰写提示词、等待 AI 输出的结果，以及处于无所事事的状态上。METR 的研究显示，开发进度放缓并非源于单一因素，而是多个因素共同作用的结果。

为了深入了解这些影响因素，METR 研究了实验环境中的 20 个变量，并发现其中 5 个极可能导致开发速度的减缓，而另外 8 个则呈现出混杂或不明确的影响。

在此过程中，METR 排除了多种实验干扰因素，例如开发者使用了先进的模型、遵循了处理分配的规则、并没有选择性地放弃问题（如放弃较难的、不使用 AI 的任务，以降低不使用 AI 组的平均难度），同时在使用和不使用 AI 的情况下，都提交了质量相似的 PR（Pull Request）。

研究结果表明：无论采用何种结果指标、估算方式，还是对数据进行不同的子集/子分析，开发速度放缓的现象始终存在。

有关更详细的调研结果，请查阅原论文：

探索AI对开源开发者生产力的影响：局限性与展望

局限性与未来展望

本次研究得出了两个关键结论：

在特定重要场景中，最新的AI工具未必能够提升生产效率，甚至可能导致效率降低。
关于效率提升的自我报告并不具备可靠性——要深入理解AI对生产力的影响，必须依赖真实环境中的实验数据。

尽管如此，METR还指出，他们的研究设置并不能全面代表所有软件工程领域，并强调当前模型的利用效率尚未达到最佳水平，未来的模型有望进一步优化。

当然，没有任何评估方法是完美无缺的——人们期望AI系统执行的任务往往复杂多样，难以进行严格的研究。因此，在不同评估方法之间进行有意义的权衡十分重要，继续研发和应用多样化的评估手段，以更全面地揭示AI的现状以及未来发展方向，将显得尤为关键。

展望未来，METR期待进行类似的AI调研，以持续追踪AI带来的加速或减速趋势，这类评估方法可能比传统基准测试更难以操控。

更多信息请访问博客地址：https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/

来源：今日头条

原文标题：AI编程反直觉调研引300万围观！开发者坚信提速20%，实测反慢19% – 今日头条

原文链接：https://www.toutiao.com/article/7527551743840797247/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

AI编程实测数据开发者信心效率提升热议调查

发表至： ai编程

2025-11-09

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

GPT-5 何时问世？人工智能发展是否已到瓶颈？

Claude中断供应，Trae面临的挑战与机遇分析

掌握cursor原型图使用方法教程，轻松玩转设计世界的秘密武器？

GPT-5：机器能否真正领悟诗歌的灵魂与深意？ – 赵泠的深度探讨

字节腾讯AI编程工具遭禁，Claude模型被迫下架！

GPT-5 于8月8日凌晨发布，哪些亮点值得我们关注？

为何DeepSeek免费却仍有众多人选择付费使用ChatGPT？老陈深度解析！

AI编程与传统编程的三大核心差异解析

揭秘大厂AI“氛围编程”：老工程师的亲身经历引发热议

《AI编程调查引发300万热议：开发者信心十足提速20%，实测却反降19%！》

AI工具对开发效率的影响：令人意外的发现

如何获取TRAE SOLO的邀请链接？ – 知乎

你在AI编程的深度探索中，达到了怎样的境界？——吉吉的分享

六种不可或缺的编程语言助力AI开发的未来

字节跳动Trae国内版与Cursor对比：优劣势全面解析！

Claude禁用后，Cursor的价值仍在？最佳替代模型与软件推荐大揭秘！

掌握AI编程的理由与优势解析！

「突破性进展：AI系统首度实现自我编程，轻松超越初级程序员」

你发现了吗？Trae SOLO Builder总是积极揽活，而Coder虽然能力一般却显得格外懒惰！