HaoLiu's blog

Claude 为什么突然变“笨”了?从推理预算、负载管理到产品信任危机

2026 04 11 topic1 cover ref 2b.png
Published on
/
7 mins read
/
––– views

这两天关于 Claude、Opus 和 Claude Code 的讨论,已经不是普通吐槽了。越来越多开发者开始描述同一种退化:它读得更少,想得更短,权限确认更多,真正把任务做完的能力却在下降。问题也不再只是“回答差了一点”,而是 coding agent 最关键的那部分体验出了问题。

这波争议真正值得看,不是一句“Claude 变笨了”,而是它背后有一条完整链路:用户为什么会感知到回退,这种回退可能来自哪里,它为什么会在 Claude Code 这种产品上被放大,最后又为什么会伤到 Anthropic 在开发者心里的位置。

用户为什么会明显感知到回退

最扎眼的一组证据,来自 @Hesamation 扩散的 Claude 会话日志分析。里面有几个数字很关键:median thinking 从约 2200 chars 降到 600 chars,reads-per-edit 从 6.6x 降到 2.0x,17 天里多次出现“should I continue”式的中断,API 请求量也显著增加。把这些信号放在一起,指向的是同一个结论:Claude 在真正动手前做的研究更少了,但失败后的重试反而更多了。

这和很多开发者的体感是能对上的。@youyuxi 提到,Claude Code 在一个全新目录里处理简单任务时,试了很多没用的方法,要了一堆权限,还卡了 4 分钟;而切到 Codex GPT 5.4,同样 medium effort,1 分钟内就 one-shot 完成。@theo 也再次强调,自己此前感知到的 Claude Code 回退并不是错觉。@birdabo 的说法更狠,直接把 Opus 4.6 形容成“被打成植物人”。

这些抱怨真正重要的地方,在于它们不是单条抱怨,而是不同人从不同角度给出了同样的描述:不是偶尔翻车,而是稳定性、判断力、推进能力一起变弱了。对于写代码场景,这种退化会比一般聊天产品严重得多。

这种回退最可能来自哪里

最直接的解释,是推理预算被压缩了。对于 coding agent 来说,少想一点不只是“回答更短”,而往往意味着更少读取已有代码、更快开始修改、更容易误判路径。一旦第一步方向错了,后面就只能靠更多试错和更多工具调用去补,表面像是在积极干活,实际却是在不断返工。

这也能解释为什么日志里会同时出现两种现象:thinking 变短了,但 API 请求反而更多了。因为真正省掉的不是无效思考,而是本来应该发生的前置理解。模型没把上下文吃透,就只能在执行阶段不断撞墙。

另一层可能,是高峰时段的容量调度和负载管理。聊天产品在高峰期稍微保守一点,用户可能只是觉得不够惊艳;但 coding agent 一旦在上下文读取、权限决策、循环执行上开始收缩,任务体验就会断崖式变差。于是同一个 Claude,在不同时间段看起来像两个产品:有时候还能打,有时候突然就开始装傻、打断、停住问你要不要继续。

还有一个经常被忽略的问题,是权限和安全策略收紧之后,Claude Code 的摩擦被放大了。它原本最值钱的地方,是像一个主动型工程师:先读、再判断、再推进。但如果默认行为越来越保守,稍微不确定就停下来确认,用户拿到的就不再是 agent,而是一个频繁打断的半自动助手。

真正危险的地方,不只是变慢,而是信任开始松动

如果只是“速度慢一点”,问题还没那么严重。更麻烦的是,很多人开始觉得 Claude 连输出风格都变了,变得更模板化、更像套话机。@GergelyOrosz 就提到,即便用的是 Max 和 Opus,也明显感觉 Claude 更 generic。这件事对 Anthropic 特别伤,因为 Claude 过去建立起来的口碑,不只是能力强,而是更像一个认真读上下文、认真把事做完的搭档。

在开发者工作流里,这种感觉非常重要。大家并不会因为某个模型在 benchmark 上更高几分,就长期忠于它。真正决定去留的,往往是很朴素的一件事:我把任务交给你,你能不能稳定、省心、少折腾地做完。过去很多人愿意忍受 Claude 稍微慢一点,就是因为它常常更稳、更深;但如果它现在变成既慢、又保守、还更爱打断,那迁移就会发生得很快。

也正因为这样,@youyuxi 那种“Claude 卡四分钟,Codex 一分钟做完”的对比杀伤力才这么大。它不是抽象的口水战,而是对开发者默认入口的直接冲击。谁能更稳定地完成真实任务,谁就更容易变成团队里的默认工具;一旦这种默认位置开始切换,后面教程、习惯、生态都会跟着一起换。

结语

所以这轮争议真正值得看的,不是一句情绪化的“Claude 变笨了”,而是它背后已经出现了一条清晰的链路:推理预算可能收紧,负载管理侵蚀体验,权限摩擦放大 agent 失败,最后变成用户对产品信任的下降。

在 AI 编程阶段,最值钱的从来不是参数表,也不是排行榜,而是开发者还愿不愿意继续把真实任务交给你。如果 Claude 连这点都开始松动,那这就不是一次普通波动,而是一个很危险的信号。