
最近 Mac 上的 agent 有了点真干活的样子。它不再只是弹个聊天框回你几句话,而是开始能在后台跑着:碰文件、点浏览器、进原生 App、读消息、处理任务。你不用一直盯着它,电脑也不用整台让出来;它跑它的,你干你的,需要的时候再接手。
比起再讲“模型又变强了”,这件事更实际。Perplexity 推出 Personal Computer,OpenAI 把 Computer Use 带到 Codex,表面上看,都是“会操作电脑的 agent”;真拉开差距的,是谁能把一段实际工作稳稳接过去:跨应用、跨文件、跨时间执行,过程还能随时让人看见、打断、修正。
产品开始像工作台,不再只是入口
过去桌面 AI 更像一个入口:你提问,它回答;你复制粘贴,它辅助。现在产品形态明显往“工作台”靠。所谓工作台,不是多加几个按钮,而是系统开始承担调度责任:接入本地文件、浏览器、邮件、日历、消息、第三方 SaaS,再把一个目标拆成多个步骤,在不同模型和不同应用之间分发。
Perplexity 就是个例子。它卖的不是某个单一模型,而是一层编排能力:目标来了,哪个模型看长上下文,哪个模型做研究,哪个模型写代码、做图、做视频,都可以分配。OpenAI 这边强调的则是另一件关键能力:agent 可以在后台看、点、输入,有自己的光标,但不霸占你的整台电脑。
桌面 agent 现在比的东西已经不一样了。大家比的不是谁更像聊天机器人,而是谁更像一个能持续运行的调度台:能接更多上下文,能跨更多应用,能在更长时间里保持任务状态,还不把用户逼成旁观者。
用户不再事事自己动手
用户的工作方式也跟着变了。以前你用 AI,主要还是自己做事,AI 帮你补几段文字、查几个链接、改几行代码。现在更像是你先描述目标、边界和优先级,再把任务派出去。
但这不等于“全自动”。恰恰相反,好的体验来自一种新的分工:机器负责跑步骤、搬数据、重复点击、人类负责定目标、看过程、做判断、在关键节点接管。后台执行之所以重要,不只是省手,而是让人可以并行工作。AriX 提到那种“agent 在后台用 app,你还能继续用电脑”的感觉,会让人一下记住,原因很简单:agent 终于能塞进日常工作流里了,不用再占着整个屏幕让你围着它转。
可见性和可接管性因此成了核心设计。用户需要看到它现在在哪个应用、做到了哪一步、为什么卡住、下一步准备改什么。也需要非常低成本地暂停、纠正、替换参数,甚至直接拿回控制权。反过来,如果 agent 一运行就把窗口强行顶到最前、全屏打断、用夸张提示制造紧张感,那它再聪明也很难成为常用工具。真实工作不是 demo,大家不会为了看 AI 表演而停下自己的活。
公司愿意为它花钱,也会被什么卡住
放到团队和公司里,这类产品的意义更大。因为一旦 agent 能持续接触文件、消息、日历、浏览器和业务系统,它承担的就不是“提效插件”角色,而是半个操作员。很多过去需要人来回切系统、做状态同步、发起流程、整理材料的工作,理论上都能交给它异步跑。
所以 Perplexity 才敢把它按高价订阅卖,甚至建议专门放一台 Mac 长期开着。它卖的是持续在线的执行能力,不只是回答次数。谁能占住用户的日常工作流、积累任务历史、偏好和审批路径,谁就更接近组织里的事实入口。
但阻力也很现实。第一是权限和安全:本地文件、iMessage、邮件、企业 SaaS,一旦打通,风险面会迅速变大。第二是稳定性:GUI 自动化再快,只要遇到 accessibility 支持差、页面结构变化、弹窗异常,就可能中断。第三是责任边界:能自动发消息、改日历、动文件的系统,出了错到底算谁的?所以人工 review 仍然不会消失,尤其在对外发送、财务、人事、法务这些环节,审核会成为默认配置,而不是补丁。
最后留下来的,会是监督界面
这一轮桌面 agent 真正要看的,不是“AI 终于会点按钮了”,而是电脑上开始出现一种新界面:它既像工作台,也像调度台。人在上面分发任务、查看进度、插手异常、审批结果;agent 在下面持续调用应用、操作文件、处理长任务。
所以接下来用户买单的重点,会越来越少落在回答质量的微小差异上,越来越多落在这套监督界面是否顺手:能不能长期运行,能不能异步协作,能不能随时接管,能不能把真实工作流接过去而不制造更多风险和打断。桌面 AI 这波之所以开始落地,是因为它终于成了一个能被管理、能被插手、也能持续运转的工作台。

