Claude 为什么突然变“笨”了？从推理预算、负载管理到产品信任危机

这两天关于 Claude、Opus 和 Claude Code 的讨论，已经不是普通吐槽了。越来越多开发者开始描述同一种退化：它读得更少，想得更短，权限确认更多，真正把任务做完的能力却在下降。问题也不再只是“回答差了一点”，而是 coding agent 最关键的那部分体验出了问题。

这波争议真正值得看，不是一句“Claude 变笨了”，而是它背后有一条完整链路：用户为什么会感知到回退，这种回退可能来自哪里，它为什么会在 Claude Code 这种产品上被放大，最后又为什么会伤到 Anthropic 在开发者心里的位置。

用户为什么会明显感知到回退

最扎眼的一组证据，来自 @Hesamation 扩散的 Claude 会话日志分析。里面有几个数字很关键：median thinking 从约 2200 chars 降到 600 chars，reads-per-edit 从 6.6x 降到 2.0x，17 天里多次出现“should I continue”式的中断，API 请求量也显著增加。把这些信号放在一起，指向的是同一个结论：Claude 在真正动手前做的研究更少了，但失败后的重试反而更多了。

这和很多开发者的体感是能对上的。@youyuxi 提到，Claude Code 在一个全新目录里处理简单任务时，试了很多没用的方法，要了一堆权限，还卡了 4 分钟；而切到 Codex GPT 5.4，同样 medium effort，1 分钟内就 one-shot 完成。@theo 也再次强调，自己此前感知到的 Claude Code 回退并不是错觉。@birdabo 的说法更狠，直接把 Opus 4.6 形容成“被打成植物人”。

这些抱怨真正重要的地方，在于它们不是单条抱怨，而是不同人从不同角度给出了同样的描述：不是偶尔翻车，而是稳定性、判断力、推进能力一起变弱了。对于写代码场景，这种退化会比一般聊天产品严重得多。

这种回退最可能来自哪里

最直接的解释，是推理预算被压缩了。对于 coding agent 来说，少想一点不只是“回答更短”，而往往意味着更少读取已有代码、更快开始修改、更容易误判路径。一旦第一步方向错了，后面就只能靠更多试错和更多工具调用去补，表面像是在积极干活，实际却是在不断返工。

这也能解释为什么日志里会同时出现两种现象：thinking 变短了，但 API 请求反而更多了。因为真正省掉的不是无效思考，而是本来应该发生的前置理解。模型没把上下文吃透，就只能在执行阶段不断撞墙。

另一层可能，是高峰时段的容量调度和负载管理。聊天产品在高峰期稍微保守一点，用户可能只是觉得不够惊艳；但 coding agent 一旦在上下文读取、权限决策、循环执行上开始收缩，任务体验就会断崖式变差。于是同一个 Claude，在不同时间段看起来像两个产品：有时候还能打，有时候突然就开始装傻、打断、停住问你要不要继续。

还有一个经常被忽略的问题，是权限和安全策略收紧之后，Claude Code 的摩擦被放大了。它原本最值钱的地方，是像一个主动型工程师：先读、再判断、再推进。但如果默认行为越来越保守，稍微不确定就停下来确认，用户拿到的就不再是 agent，而是一个频繁打断的半自动助手。

真正危险的地方，不只是变慢，而是信任开始松动

如果只是“速度慢一点”，问题还没那么严重。更麻烦的是，很多人开始觉得 Claude 连输出风格都变了，变得更模板化、更像套话机。@GergelyOrosz 就提到，即便用的是 Max 和 Opus，也明显感觉 Claude 更 generic。这件事对 Anthropic 特别伤，因为 Claude 过去建立起来的口碑，不只是能力强，而是更像一个认真读上下文、认真把事做完的搭档。

在开发者工作流里，这种感觉非常重要。大家并不会因为某个模型在 benchmark 上更高几分，就长期忠于它。真正决定去留的，往往是很朴素的一件事：我把任务交给你，你能不能稳定、省心、少折腾地做完。过去很多人愿意忍受 Claude 稍微慢一点，就是因为它常常更稳、更深；但如果它现在变成既慢、又保守、还更爱打断，那迁移就会发生得很快。

也正因为这样，@youyuxi 那种“Claude 卡四分钟，Codex 一分钟做完”的对比杀伤力才这么大。它不是抽象的口水战，而是对开发者默认入口的直接冲击。谁能更稳定地完成真实任务，谁就更容易变成团队里的默认工具；一旦这种默认位置开始切换，后面教程、习惯、生态都会跟着一起换。

结语

所以这轮争议真正值得看的，不是一句情绪化的“Claude 变笨了”，而是它背后已经出现了一条清晰的链路：推理预算可能收紧，负载管理侵蚀体验，权限摩擦放大 agent 失败，最后变成用户对产品信任的下降。

在 AI 编程阶段，最值钱的从来不是参数表，也不是排行榜，而是开发者还愿不愿意继续把真实任务交给你。如果 Claude 连这点都开始松动，那这就不是一次普通波动，而是一个很危险的信号。

Claude 为什么突然变“笨”了？从推理预算、负载管理到产品信任危机

用户为什么会明显感知到回退

这种回退最可能来自哪里

真正危险的地方，不只是变慢，而是信任开始松动

结语

On this page