共计 4460 个字符,预计需要花费 12 分钟才能阅读完成。
编译 | Tina
AI 编程服务商 Replit 最近再次成为公众讨论的焦点,这距离它上次的风波不到三个月。
早在今年七月,Replit 因数据伪造的操作失误而受到舆论的广泛批评。公司随后进行了公开道歉,并表示将采取措施重建用户信任。
在九月十日,Replit 正式发布了新一代 AI 编程助手 Agent 3,声称该工具将使开发者在构建和测试应用程序时变得更加轻松。同日,Replit 还宣布成功融资 2.5 亿美元,公司的估值因此上升至 30 亿美元。
Replit 将 Agent 3 称为“迄今为止最先进、最具自主性的编程代理”,其性能据称是“Computer Use 模型的三倍速度,且成本效益高出十倍”。
1 软件的“自动驾驶时代”?
在官方推文中,Replit 形容 Agent 3 是最具自主性的代理,能够在浏览器中自动测试和修复应用,检查按钮、表单、链接及 API。同时,它可以连续运行超过 200 分钟,在构建、测试和修复过程中几乎无需人工干预。此外,Agent 3 还能够与 Slack、Telegram、Notion、Dropbox 等常用工具集成,帮助用户快速实现自动化。
CEO Amjad Masad 将此次版本称为软件的“自动驾驶时代”。他表示,Agent 3 的自主性提升了十倍,能够在其他模型停滞的情况下继续推进。在他的构想中,Agent 3 不再仅仅是一个代码助手,而是一个可以重塑生产力模式的数字化工作者雏形。
“AI 代理可以原型化应用……然而,要发布真正的软件,仍需要数小时的测试、调试和重构。Agent 3 的自主性提高了十倍,能够在其他人卡住的地方继续前进。这是软件的‘自动驾驶时代’。”
Amjad Masad 还首次详细阐述了“自主性等级”体系。
早期的 VS Code IntelliSense 代表着第一级;Copilot 等代码补全工具属于第二级;Replit Agent 2 大约处于 3.5 级,能够独立工作 10-15 分钟,但偶尔需要人类介入。而 Agent 3 则被定为四级——基本全自动,但偶尔仍需关注。未来,Replit 计划实现第五级,即能够同时运行数千个代理,以超过 95% 的可靠性解决问题,从而使任何工程师或产品经理都能调度大规模的“数字工程师”,几乎无需监督,实现效率的指数级提升。
Amjad Masad 指出 Agent 3 的三大支柱:
-
端到端测试:让 Agent 像人类一样使用计算机,点击按钮、进行质量保证。随着模型的改进,它能工作更长时间,自动完成质量检查。
-
采样与模拟:Replit 创建了一个完全可回滚的事务型文件系统。当进行重大改动时,Agent 能够复制环境并尝试不同的解决方案,然后选出最佳方案并合并,像人类一样进行“分支思考”。这可以提高 2-3 倍的可靠性。
-
自动生成测试:每次新增功能时自动生成测试用例,以确保不会因后续更改而受到影响。尽管对模型来说,生成单元测试依然困难重重,但这对提高稳定性至关重要。
他强调,此次版本的核心在于底层基础设施的重构,旨在为 AI 代理提供更稳定、可靠的“栖息环境”。同时,他描绘了一个宏伟的蓝图:“随着融资的完成和新 AI 代理的推出,我们将有能力大幅提升客户增长,成为企业市场的标准。未来令人振奋,数百万、甚至数十亿人将只需轻松点击几下,就能实现他们的想法。”
然而,正是这些“轻松点击”,如今却引发了用户的不满。
2 修复不了 bug,反而删除了“关键文件”!
一位用户分享了他的经历。他在四月至七月几乎完全依赖 Agent 2 开发一款浏览器游戏。尽管不是专业开发者,但这款游戏经过外部审计,评分为 6/10,虽然不算完美,但稳定且可用。在进行小规模内测时,约有 250 名用户参与反馈。然而,最近出现了问题:部分玩家报告游戏中存在无法从一个关卡进入下一个关卡的 bug。他尝试使用 Agent 3 的构建模式进行修复。
结果却非常糟糕——代理工作了一个多小时,却始终无法找到解决方案。更糟糕的是,它不仅没有修复 bug,反而引入了回归,破坏了项目, 甚至有一次还删除了像 storage 这样的关键文件。
回滚功能形同虚设,他整整一个周末只能眼睁睁看着代理一步步把应用搞崩。最终,他不得不手动恢复到一个稳定版本,过程异常艰难。他总结道,Agent 3 的构建过程效率低下且破坏性极强。“从此以后,我再也不敢让它碰我的代码。”
这位用户最后呼吁 Replit 团队务必提高 Agent 3 在构建模式下的可靠性,以防止引入回归问题或删除文件。
而且这并不是“个例”。另一位网友在使用 Agent 3 时,代理直接删除了他和测试用户的所有数据。而且 Replit CEO Amjad Masad 强调的“回滚功能”同样未能发挥作用,直到他把环境回退到 24-48 小时前才得以恢复。他无奈地说:“幸好我立刻学会了给数据库做备份。”
虽然 Replit 强调其“连续运行超过 200 分钟”,但诸如“工作一个小时没有结果”、“修改两行代码竟花了三个小时”等案例却屡见不鲜。而且,除了这些功能失效外,成本失控的问题更为严重。
Replit Agent 3 的费用高得离谱,这仅仅是使用一周的结果(上周就至少花了 1200 美元)。
一位用户表示:“我觉得这只是上线初期的定价调整——在新应用上,一些任务运行 1 小时 45 分钟仅收了 4-6 美元,但编辑已有应用的成本最高,仅这一周我就花了 1000 美元。”
这位用户推测:“Replit 在后台运行了更多子代理,导致成本上升。尤其是在处理旧代码时,它会不断审查代码库的旧部分(特别是大文件),收费远高于新建应用。它常常调用多个子代理进行审查、规划、检查安全性、执行和修复问题,重新审核数千行代码——结果每次操作都需花费 2-4 美元。即使是简单的重置服务器,也要收取 0.40-0.50 美元。有趣的是,让它在全新应用的对话中构建时,它反而不会如此频繁地调用。”
在 Reddit 上,许多用户也报告,自从新服务上线后,自己的 Replit 账单迅速上升。
有用户分享道:“在 9 月 11 日之前,使用 Agent 2 时,我的花费合理,和价值相符。但换成 Agent 3,仅仅一个周末的失败尝试,成本就飙升了,却没有任何实际成果。”
另一位用户则表示:“我平时每月花费 100-250 美元,但 Agent 3 发布当天,我一晚上就消耗了 70 美元。”他还提到新工具出现了可疑操作:“有一次,一个提示直接暴力破解认证,重新执行验证,并强制重置了用户密码,只为在表单中进行应用测试。”
“还有一次提示,它自己设计了一个新 UI,把整个应用完全重构。我立刻停用了,因为那次提示花费了我 20 美元,还毁掉了界面。我通常每晚会运行大约 10 个提示,按这个速度,一个月的花费可能要涨到 20 倍。”
部分问题或许源于 Replit 在六月推出的“基于投入的定价”。以前每个检查点收费 0.25 美元,一个任务涉及多个检查点时会逐一累加。而现在复杂任务会被捆绑为一个更昂贵的检查点。次月,Replit 曾承认,“在整个项目生命周期内,这种定价可能更贵”。但直到 Agent 3 上线,用户才真正感受到冲击。
一位用户解释说:“以前基于投入的定价从未让我花这么多钱,但 Agent 3 的价格特别离谱。新代理上线后一周,我就被收了 1000 美元,而之前同样的工作每月从没超过 180-200 美元。如果是新应用,Agent 3 的定价还算合理。但在已有应用上边改边用,那简直贵得离谱。”
在用户的吐槽之外,社区里也出现了更为尖锐的批评。有些人直言这像是“末日收割”,还有人毫不客气地讽刺:“AI 不过是个华丽的胡扯生成器。需要大量胡扯时它很好用,否则糟透了。AI 泡沫何时破灭?感觉已经不远了。”
一些开发者则更直接地将矛头指向 Agent 3 和人类的对比:
“人类更便宜,也更聪明。”“照这个趋势下去,也许学会自己写代码更容易。”
3 通用问题求解器的关键在于“移除人类”和“可回滚”?
不得不说,Replit CEO 的营销策略相当高明。融资、估值、宏大愿景,加上“软件的自动驾驶时代”这样的叙述,让 Agent 3 看起来像是未来的入口。
Amjad Masad 也承认,为了生存下去,Replit 必须摆脱单一“代码助手”的角色,转变为真正的通用问题求解器。他强调 Replit 的优势在于全栈服务:可以从想法一路走到部署和规模化。
但现实却是:许多用户在使用过程中体验到的并非“通用问题求解器”,而是“通用问题制造机”。数据丢失、文件删除、账单飙升,这些事故让开发者逐渐失去了对这个“全栈自动化”的未来的信任。
面对质疑,Replit 也曾尝试从技术层面作出回应。在前几天的一次公开发布会上,有观众提出尖锐问题:Replit 在技术架构的哪个层面取得了最关键的进展?尽管 Agent 3 声称可连续工作一小时,但如果依赖闭源模型而无法做深度定制,其突破性究竟体现在哪里?
CEO Amjad Masad 回应称,真正的突破不在于模型训练本身,而在于构建了一个所谓的“模型栖息地”(habitat)——一整套支持 AI 代理持续、可靠运行的基础设施。他特别强调“事务性”(transactional)机制的重要性:在 Replit 中,每一个对计算环境的修改与其他系统组件保持同步,用户可回滚至任意历史检查点并将应用恢复至对应状态。
他认为,这种基础设施所带来的环境反馈和快速试错能力,才是实现更高可靠性的关键,其作用甚至超过模型训练本身的提升。
另有开发者追问关于“连续运行一小时”的设计权衡:团队是如何决定优先追求更长的自主时长,而非优化短时推理能力?
Masad 表示,短时间跨度更多是在做可靠性;而更长的时间跨度,则是在追求自主性,目标是将人从环路中移除,减轻人类持续测试和反馈的负担。
这两者 Replit 都在推进:在可靠性方面,通过加强推理能力和多代理并行试错(即“采样与模拟”)来实现;在长时运行方面,重点在于测试:因为随着运行时间的延长,可能会出现“目标漂移(goal drift)”——代理可能开始做一些你不希望它做的事;设置好测试护栏,能够让它在较长时间内保持连贯。
“与此同时,随着我们积累更多失败与无效的数据,你可以进行微调,或持续改进提示(prompt),再添加更多护栏,使其变得更好。”
参考链接:
https://old.reddit.com/r/replit/comments/1nidmhr/ongoing_agent_3_feedback_megathread/
https://www.theregister.com/2025/09/18/replit_agent3_pricing/
https://www.youtube.com/watch?v=lWmDiDGsLK4
声明:本文为 InfoQ 翻译整理,不代表平台观点,未经许可禁止转载。
今日好文推荐
会议推荐
10 月 23 – 25 日,QCon 上海站即将召开,限时 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。