HaoLiu's blog

AI 能力认知,为什么会在 2026 年彻底分层?

2026 04 10 topic 1 fusion cover.png
Published on
/
6 mins read
/
––– views

cover

这两天关于 AI 的几条讨论,拼起来其实说明了一件很重要的事:今天公众谈论的“AI”,已经不是同一种能力。

Andrej Karpathy 提到一个很关键的现象:很多人对 AI 的判断,仍然停留在去年某次免费试用的印象里。Simon Willison 则提醒,OpenAI 的 voice mode 往往并不是跑在最新最强的模型上。另一边,Riley Brown 在讨论 Codex 5.4 时说,很多时候反而是任务越大,agent 表现越好。再加上 sekachov 那种“hold my Claude Code”式的实际用法,你会发现问题已经很清楚了:免费聊天用户、语音用户和 coding agent 用户,正在形成三套完全不同的能力认知。

先看第一层,也就是大多数普通用户接触到的免费层。

很多人第一次用 AI,就是打开一个免费聊天框,问几个问题,然后很快遇到幻觉、逻辑跳跃、答非所问。这个体验会直接固化成一个长期判断:AI 不稳定,也没有宣传里那么强。

问题在于,这种判断往往来自最旧、最弱、最受限的一层体验。模型在变,额度在变,工具能力在变,能调用外部环境的方式也在变,但普通用户不会持续刷新认知。他们只会记住第一次失望,然后把那次失望当成整个行业的上限。

第二层是语音用户。语音模式为什么容易制造误判?因为它看起来最像未来。

一个能实时对话、能打断、语气自然的 AI,天然比文字聊天更有“技术完成度”。但 Simon Willison 提到的重点恰恰在这里:语音模式很多时候优先优化的是延迟、稳定性和成本,而不是绝对推理能力。也就是说,大众最容易接触、最容易传播、最容易拍短视频的形态,未必代表最强能力边界。

这就带来一个很直接的后果:很多人会以为自己已经用到了最先进的 AI,实际接触到的却是一个为了交互体验而做过取舍的版本。于是他们得到的结论往往是:AI 很像人,但脑子一般。

第三层才是真正拉开差距的 agent 层。

Riley Brown 说 Codex 5.4 在更大任务上反而更强,这句话很重要,因为它改变了大众对 AI 的默认想象。过去大家觉得 AI 最适合做零碎辅助:润色一句话、补几行代码、列几个点子。但 agent 的逻辑不是“回答你”,而是“替你推进任务”。它会读代码库、理解上下文、拆步骤、改文件、跑测试、继续修,直到结果能用。

这也是为什么 sekachov 那类案例会引发很多开发者共鸣。引发震动的不是“AI 会写代码”这件老事,而是它开始像一个可调用的执行者。你给它一个目标,它不只是回一段话,而是能把目标往可交付结果推进。

所以今天关于 AI 的巨大分歧,本质上不是观点之争,而是体验层级之争。

免费层用户看到的是一个容易翻车的概率工具;语音层用户看到的是一个拟人化程度很高、但能力不一定最强的接口;agent 层用户看到的,则是一个已经开始改变工作流的执行系统。

这三层体验会把市场讨论直接撕裂。

有人说 AI 泡沫巨大,因为他看到的是旧免费版留下的坏印象;有人说 AI 现在最大的价值是陪伴、对话和自然交互,因为他主要接触的是语音层;还有人会很坚定地说,AI 已经开始重构软件生产,因为他每天都在把 agent 当成半个执行成员来用。

这三种判断都不是空口乱讲,但它们讨论的其实不是同一个产品。

这也是 AI 公司接下来会遇到的一个真实难题:最容易传播的,通常是语音演示、人格感、翻车片段;但最容易产生高价值付费的,往往是 agent 在专业工作流里的稳定产出。换句话说,传播最强的东西,不一定最值钱;真正最值钱的东西,又往往最不容易被大众一眼看懂。

所以 2026 年 AI 最大的鸿沟,可能不是“你用不用 AI”,而是“你到底在用哪一层 AI”。

如果一个人始终停留在免费层,他大概率会低估 AI;如果一个人主要停留在语音层,他大概率会误判 AI;只有真正进入 agent 层,才会意识到,变化已经不只是模型更聪明,而是工作方式、软件生产流程,甚至用户对工具的期待都在被改写。

这也是为什么下一阶段最关键的竞争,不只是继续堆模型能力,而是让更多普通用户第一次真正接触到 agent 级体验。谁能跨过这道认知断层,谁才更有机会定义下一轮 AI 平台。