AI 能力认知，为什么会在 2026 年彻底分层？

cover

这两天关于 AI 的几条讨论，拼起来其实说明了一件很重要的事：今天公众谈论的“AI”，已经不是同一种能力。

Andrej Karpathy 提到一个很关键的现象：很多人对 AI 的判断，仍然停留在去年某次免费试用的印象里。Simon Willison 则提醒，OpenAI 的 voice mode 往往并不是跑在最新最强的模型上。另一边，Riley Brown 在讨论 Codex 5.4 时说，很多时候反而是任务越大，agent 表现越好。再加上 sekachov 那种“hold my Claude Code”式的实际用法，你会发现问题已经很清楚了：免费聊天用户、语音用户和 coding agent 用户，正在形成三套完全不同的能力认知。

先看第一层，也就是大多数普通用户接触到的免费层。

很多人第一次用 AI，就是打开一个免费聊天框，问几个问题，然后很快遇到幻觉、逻辑跳跃、答非所问。这个体验会直接固化成一个长期判断：AI 不稳定，也没有宣传里那么强。

问题在于，这种判断往往来自最旧、最弱、最受限的一层体验。模型在变，额度在变，工具能力在变，能调用外部环境的方式也在变，但普通用户不会持续刷新认知。他们只会记住第一次失望，然后把那次失望当成整个行业的上限。

第二层是语音用户。语音模式为什么容易制造误判？因为它看起来最像未来。

一个能实时对话、能打断、语气自然的 AI，天然比文字聊天更有“技术完成度”。但 Simon Willison 提到的重点恰恰在这里：语音模式很多时候优先优化的是延迟、稳定性和成本，而不是绝对推理能力。也就是说，大众最容易接触、最容易传播、最容易拍短视频的形态，未必代表最强能力边界。

这就带来一个很直接的后果：很多人会以为自己已经用到了最先进的 AI，实际接触到的却是一个为了交互体验而做过取舍的版本。于是他们得到的结论往往是：AI 很像人，但脑子一般。

第三层才是真正拉开差距的 agent 层。

Riley Brown 说 Codex 5.4 在更大任务上反而更强，这句话很重要，因为它改变了大众对 AI 的默认想象。过去大家觉得 AI 最适合做零碎辅助：润色一句话、补几行代码、列几个点子。但 agent 的逻辑不是“回答你”，而是“替你推进任务”。它会读代码库、理解上下文、拆步骤、改文件、跑测试、继续修，直到结果能用。

这也是为什么 sekachov 那类案例会引发很多开发者共鸣。引发震动的不是“AI 会写代码”这件老事，而是它开始像一个可调用的执行者。你给它一个目标，它不只是回一段话，而是能把目标往可交付结果推进。

所以今天关于 AI 的巨大分歧，本质上不是观点之争，而是体验层级之争。

免费层用户看到的是一个容易翻车的概率工具；语音层用户看到的是一个拟人化程度很高、但能力不一定最强的接口；agent 层用户看到的，则是一个已经开始改变工作流的执行系统。

这三层体验会把市场讨论直接撕裂。

有人说 AI 泡沫巨大，因为他看到的是旧免费版留下的坏印象；有人说 AI 现在最大的价值是陪伴、对话和自然交互，因为他主要接触的是语音层；还有人会很坚定地说，AI 已经开始重构软件生产，因为他每天都在把 agent 当成半个执行成员来用。

这三种判断都不是空口乱讲，但它们讨论的其实不是同一个产品。

这也是 AI 公司接下来会遇到的一个真实难题：最容易传播的，通常是语音演示、人格感、翻车片段；但最容易产生高价值付费的，往往是 agent 在专业工作流里的稳定产出。换句话说，传播最强的东西，不一定最值钱；真正最值钱的东西，又往往最不容易被大众一眼看懂。

所以 2026 年 AI 最大的鸿沟，可能不是“你用不用 AI”，而是“你到底在用哪一层 AI”。

如果一个人始终停留在免费层，他大概率会低估 AI；如果一个人主要停留在语音层，他大概率会误判 AI；只有真正进入 agent 层，才会意识到，变化已经不只是模型更聪明，而是工作方式、软件生产流程，甚至用户对工具的期待都在被改写。

这也是为什么下一阶段最关键的竞争，不只是继续堆模型能力，而是让更多普通用户第一次真正接触到 agent 级体验。谁能跨过这道认知断层，谁才更有机会定义下一轮 AI 平台。

AI 能力认知，为什么会在 2026 年彻底分层？

On this page