共计 2779 个字符,预计需要花费 7 分钟才能阅读完成。

在智能代理的较量中,谁也没有时间等待。
作者|桦林舞王
编辑|靖宇
2025 年底,来自奥地利的开发者彼得·施泰因伯格(Peter Steinberger),在短短一小时内创作了一个名为 Clawdbot 的代理工具,取名灵感源自 Claude。然而,Anthropic 对此发出律师函,威胁采取法律行动,施泰因伯格被迫将其更名为 Moltbot,随后又改为 OpenClaw。
原本这只是小事一桩。
然而,OpenClaw 迅速走红。在 GitHub 上,它的星标激增至 17 万,单周访问量突破 200 万,成为历史上增长速度最快的开源代理项目之一。更重要的是,它默认推荐使用 Claude 模型来完成任务,这在某种程度上成为了 Anthropic 最大的免费流量来源之一。
紧接着,Anthropic 做出了一项愚蠢的决定:开始封禁那些将 Claude API 接入 OpenClaw 的用户账号。
社区瞬间沸腾。

Vercept 的产品使 AI 能够控制电脑|图片
「使用自己支付的 API 进行自动化,却遭到封号」,这样的举动令 AI 社区对 Anthropic 的看法一夜之间发生了翻天覆地的变化,施泰因伯格本人也对 Anthropic 彻底失去了信心。
2026 年 2 月 15 日,山姆·阿尔特曼(Sam Altman)宣布彼得·施泰因伯格加入 OpenAI,负责下一代个人代理。
11 天后,Anthropic 宣布收购 Vercept。
媒体对此的第一反应多是:「又一家初创公司被大企业收购了。」
但是,当将这两件事结合起来看,所传达的信息是:AI 战场正在经历一次显著的转变——从「谁的模型更智能」到「谁能真正让 AI 控制电脑」。
在这一转变中,Anthropic 目前处于被动追赶的状态,而这部分是其自我造成的。
01
屏幕,真正的「最后一公里」
过去几年,AI 能力的提升大多发生在对话框中——你输入文字,它便给出回应,越来越精准流畅且快速。然而,有一点始终未变:你仍需亲自打开软件、点击按钮、复制粘贴,然后再询问 AI 接下来该如何行动。
这正是 Agent 所要解决的难题。
Agent 的目标并非让 AI 更聪明地回答你的问题,而是让 AI 直接为你执行任务:例如,帮你打开 Excel、填写表格、切换到邮件客户端、发送数据,最后关闭窗口。整个过程中,你只需说出一句话。
然而,关键在于,要实现这一点,AI 必须首先「理解」你的屏幕——识别出每一个按钮、输入框和菜单,并像人类一样进行点击。
尽管这听起来简单,实际上却极其复杂。
有趣的是,在 AI 编写代码、进行分析和生成报告等领域,各家之间的差距正在缩小。但在「看屏幕、控制电脑」这一点上,差距依然显著。
OpenAI 的 Operator 在 OSWorld(模拟真实计算机操作的基准测试)中的得分为 38.1%。而Anthropic 的 Computer Use 仅为 22%。人类的平均水平则是 72.4%——没错,目前 AI 在这方面远不如普通人来得得心应手。
02
Vercept 的独特之处何在?
这正是 Vercept 受到关注的原因。
Vercept 的创始团队来自艾伦人工智能研究所(Ai2),他们在机器人感知、计算机视觉和强化学习等领域都有着深厚的技术积累。
Vercept 团队开发的 Vy,采用了与 OpenAI 截然不同的技术路径。
Operator 的思路是「解读代码」:通过解析网页的底层 DOM 结构(文档对象模型),理解界面中可交互的元素。这种方式速度快、稳定性高,但有一个缺陷——它仅适用于结构化的网络界面。面对本地软件、老旧系统或没有 API 的企业应用,它就完全无能为力。
Vy 的思路则是「分析像素」:通过不断截图,利用视觉模型理解屏幕上的所有内容,再模拟鼠标和键盘操作。其覆盖范围包括任何有屏幕的软件——无论是 Excel、本地 ERP,还是 20 年前开发的企业内网系统。
Vercept 介绍视频|视频
Vercept 曾公布一组数据:在 UI 元素识别基准测试 ScreenSpot v1 中,他们自研的 VyUI 模型准确率为 92%,而 OpenAI 的同类模型仅为 18.3%。在 ScreenSpot v2 上则为 94.7% 对 87.9%。
这样的差距并非因为「我们优化得更好」,而是 底层技术路径带来的系统性优势。
正是这一因素,弥补了 Anthropic 的短板。
虽然 Claude 的 Computer Use 可行,但始终没有给人惊艳的感觉。吸收 Vercept 的模型及团队,成为 Anthropic 在「看屏幕」这方面快速提升的最佳途径。
03
OpenAI 所争夺的,
是另一个入口
OpenAI 所合并的 OpenClaw 是另一重要项目,但同样具有关键性。
彼得·施泰因伯格开发的 OpenClaw,并非传统的桌面代理,而是将 AI 操控能力接入 WhatsApp、Telegram 等消息平台——当你在手机上发送一条消息时,它能够在电脑上完成某项任务。
这条路径所解决的并非「AI 如何看屏幕」,而是「用户如何发出指令」。
这一细节至关重要。绝大多数用户并不会专门打开代理界面来进行电脑操作,但每天都在使用消息应用程序。将指令入口嵌入消息应用,是使代理真正融入用户日常习惯的关键。
OpenAI 所吸引的是人才,而非公司本身,重点在于获取相关的工程能力和产品直觉。
因此,这两笔「收购」针对的是代理领域的不同层面:Anthropic 正致力于填补「屏幕感知」的技术缺口,而 OpenAI 则在布局「指令入口」的场景。
一方面是基础设施的建设,另一方面则是用户习惯的培养,缺一不可。
更大的背景是,这场竞争刻不容缓。
谷歌和微软早已在布局,而 UiPath 等 RPA(机器人流程自动化)公司的股价在 Anthropic 收购 Vercept 的消息披露后,暴跌了 3.6%——市场已然感受到威胁。
在代理时代的竞争中,根本上是一场对基础设施的争夺。谁能率先将「AI 控制电脑」的功能做到极致,谁就将在未来数年的企业及个人市场中拥有真正的竞争优势。
Vercept 的联合创始人及早期投资者 Oren Etzioni 坦言:“我们基本上已经认输了。”
然而,认输的原因并非技术不足——他们在某些方面的技术甚至处于领先地位。真正的原因在于,这场战争所需的资金和资源,远非一家 20 人的初创公司能够承受。
这或许也是 AI 代理领域最残酷的现实:
优秀的技术是不够的,还有必要有足够大的平台来承载它。
* 头图
本文为极客公园原创,转载请联系极客君微信 geekparkGO
极客提问
你觉得 Vercept 的技术与豆包手机有何不同?

苹果宣布 Mac mini,首次实现美国本土生产。
点赞并关注极客公园的视频号,



看到施泰因伯格的经历,我觉得这反映了创业者与大企业之间的复杂关系,真的很有趣。