
Anthropic 悄悄接管了你的桌面,AI 创业者还有活路吗?
美国西海岸时间周一一大早,Anthropic 悄悄发了个东西,我看完有点懵。
不是那种“模型又变强了”的常规升级,而是他们发布了一个叫 Computer Use 的功能。简单来说,Claude 现在不再仅仅是一个躲在对话框里的聊天机器人,而是进化成了一个能直接接管你电脑、操控键鼠、在不同 App 间反复横跳的“超级特工”。
这不只是一次功能更新,更像是一场精准的“外科手术”。正如 @TukiFromKL 在那个地方感慨的,每一个基于 AI 构建的初创公司,刚刚眼睁睁地看着自己的整个公司变成了别人的更新日志(Changelog)。
这话听着挺难受的,但确实是实话。
绕过 API 直接翻窗
长期以来,AI 想要操作软件,通常需要开发者去适配繁琐的 API。如果软件没提供 API,AI 就束手无策。但 Anthropic 换了个思路:既然人类是通过看屏幕、动鼠标来用电脑的,那为什么不让 Claude 也这么做?
这种绕过 API 直接操作 GUI(图形用户界面)的做法,我愿称之为 Agent 的“暴力美学”。以前我们需要为每个软件写插件,现在 Claude 直接把电脑屏幕当成了它的“画板”。说白了,就是它不再求着软件开门,而是直接翻窗进去了。
它的操作逻辑其实就是一个闭环:截图,思考,动作,再截图。Claude 会以一定的频率截取你当前的桌面,然后传回云端。模型会分析我现在在哪,我要找的那个发送按钮在哪个坐标,然后它输出一个具体的指令,比如 mouse_click。
本地的驱动程序接收到指令,直接调用操作系统的底层接口去模拟真实的物理输入。管你是用 Python 写的还是用 C++ 写的,管你有没有 API,只要你能把界面显示在屏幕上,Claude 就能操作你。
为什么这事儿以前没人做成?
你可能会说,这不就是高级版的按键精灵或者 Selenium 吗?还真不是。以前的自动化工具是“死”的,屏幕分辨率一变、按钮挪个位置,脚本就挂了。但现在的 Claude 是“活”的。它有容错能力。按钮挪了?它看一眼新截图,发现按钮在右边了,它就点右边。
这种基于视觉理解的动态调整,才是它真正牛逼(且暴力)的地方。Anthropic 专门训练了一个能理解 GUI 结构的 Multimodal 模型。它不是乱点,它能精确感知像素坐标,还理解 UI 的语义。它知道那个带叉号的方块是关闭,那个放大镜是搜索。这其实是把人类几十年积累的 UI 交互习惯,通过海量截图训练直接“喂”给了模型。
看着计费表跳动,肉疼
不过,这种“暴力”也是有代价的,而且代价大得惊人。
以前我们跟 AI 聊天,发的是字符串数据,几千个字也就几个 Token,便宜得跟不要钱似的。但 Computer Use 是“看图说话”。你想想,一张 1080p 的高清截图传过去,模型得把它切成多少个小方块去分析?每截一张图,可能就烧掉上千个 Token。
如果你让它帮你订张机票,它得点几十次鼠标,截几十张图。这一套操作下来,Token 的燃烧速度起码是普通聊天的几百倍。这哪是在用 AI 啊,这简直是在用印钞机点火取暖。(当然,如果你是 Anthropic 的股东,你可能觉得这叫“营收增长点”,但作为用户,我看着那 Token 消耗速度,真的觉得肉疼。)
这种“暴力”逻辑虽然推倒了软件之间的墙,但也对你的钱包提出了极高的要求。
OpenClaw 的“终结者”?
在这场变革中,受冲击最严重的莫过于像 OpenClaw 样的开源项目。OpenClaw 曾凭借手机远程控制桌面的概念在 GitHub 上斩获 25 万颗星(虽然我一直怀疑这数据里有多少是水分,但确实火得离谱)。
然而,Anthropic 的策略极其“冷酷”。它并没有收购这些先驱,而是直接在产品层面完成了“平替”。分析师 @aakashgupta 拆解了一下,发现 Anthropic 的更新几乎是贴着 OpenClaw 的痛点在开大。OpenClaw 卖点是手机远程控制,Anthropic 就出个 Dispatch;OpenClaw 依赖第三方社交平台,Anthropic 就搞个 MCP 桥接。
博主 @dani_avila7 亲自实测了 Dispatch 功能,他坐在沙发上通过手机给 Claude 下达指令,让远处的电脑自动打开网页并点赞。这种丝滑的体验,让曾经需要复杂配置的开源工具显得笨重且多余。
你的护城河,只是人家的一个 feature
对于无数 AI 创业者来说,最让人绝望的一句话莫过于:你的护城河,只是巨头的一个 feature。
此前,许多初创公司(所谓的 Wrapper)都在致力于打通 AI 与本地操作系统的连接。他们花费数月解决的自动化流程、跨应用联动,在 Anthropic 面前仅仅是一次周一晚上的例行更新。正如 @TukiFromKL 所言,Anthropic 并没有买下这些初创公司,他们只是“替换”了它们。当官方原生的 Computer Use 功能能以更高的稳定性、更深的系统集成度出现时,第三方 Wrapper 还有什么存在的理由?
这就很离谱。你辛辛苦苦盖的房子,人家直接把地皮给收了。
阴影之下:新的“Rootkit”已经发布?
当然,赋予 AI 如此高的权限,真的安全吗?加密货币领域的知名博主 @banteg 犀利地调侃道,新的 Anthropic Rootkit 刚刚发布。
Rootkit 这词儿在安全圈听着挺吓人的,简单说就是一套能悄悄拿走你系统最高权限,还能把自己藏得严严实实的工具箱。它就像个隐形人住在你家里,还换了你家的锁,你查都查不出来。当 Claude 能够模拟键鼠操作时,它在某种意义上确实拥有了这种能力。如果模型产生幻觉,或者被诱导执行恶意脚本,它对用户隐私和系统安全的威胁将是毁灭性的。
Anthropic 显然意识到了这一点,目前该功能仅在实验阶段。但正如所有强大的武器一样,这把双刃剑的另一面,依然让不少技术专家感到不安。
你准备好交出鼠标了吗?
Anthropic 的这次“降维打击”告诉我们:AI 的下半场,不再是“对话”的竞争,而是“行动”的竞争。
对于开发者和创业者来说,单纯做工具的桥接已经走到了尽头。未来的价值将不再于“如何让 AI 连接电脑”,而在于“教 AI 学会复杂的专业技能”。正如实测者提到的,现在我们需要的是更精细的 SKILL.md 文件,去定义那些只有特定领域专家才懂的业务逻辑。
巨头接管了桌面,但也释放了生产力。当“如何操作”不再是难题时,“做什么”和“怎么做得更好”将成为新一轮竞赛的起点。
这场 Agent 的权力更迭才刚刚开始,你准备好交出你的鼠标了吗?

