cover

闭源巨头的后院起火：Hermes 0.7 与大模型记忆体系的开源倒计时

上周 Anthropic 刚因为 Claude Code 的额度 Bug 被开发者骂上热搜，这周开源社区就有人来“趁火打劫”了。

NousResearch 悄悄发布了 Hermes Agent v0.7.0。

说实话，我刚看到这个版本号的时候没太在意，毕竟现在每天都有几十个自称“最强开源 Agent”的东西冒出来。但刷完推特上那几个硬核开发者的 demo，我发现这火烧得有点旺。

记忆不再是“黑盒”

以前我们聊 AI Agent 的记忆，总觉得那是闭源大厂的护城河。

不管是 Claude 的 prompt caching，还是 OpenAI 那个神神秘秘的 memory 功能，说白了都是在云端帮你存点东西，然后收你一笔不菲的 token 费。

但 Hermes 0.7 走了一条完全相反的路：插件化记忆系统（Modular Memory）。

它不再试图在一个无限长的 context window 里塞进所有东西，而是把记忆拆成了可插拔的模块。你可以用本地的 SQLite 存，可以用 Git 管理，甚至可以用 Karpathy 最近推崇的那套“Markdown Wiki”方案。

说到 @karpathy，他那条关于“LLM Knowledge Base”的推文已经冲到了 570 万次曝光。他的核心观点很简单：别迷信 RAG（向量检索），让大模型自己把原始资料“编译”成结构化的 Markdown。

这简直就是给开源 Agent 递了把刀。

为什么说这是后院起火？

因为闭源大厂现在的处境很尴尬。他们一方面要维持高昂的 API 利润，另一方面又要处理像 Claude Code 那种“1 小时烧掉 100 刀”的额度灾难（@rezoundous 吐槽说 $100 的套餐用起来像$ 20，这事儿换谁都得炸）。

而开源 Agent 配合本地模型（比如最近火得一塌糊涂的 Gemma 4），正在把这套逻辑拆解掉：

NousResearch 这次发布的 Hermes 0.7，最屌的地方在于它把这套流程标准化了。它不是一个简单的 chatbot，而是一个带插件系统的底座。

我一直觉得，大模型的护城河正在从“模型能力”快速向“工程实现”转移。

当 Qwen 3.6-Plus 的编码能力已经能跟 Claude Opus 掰手腕，当 Gemma 4 能在 Mac 上跑出 300 tokens/s 的时候，闭源大厂唯一的优势就是那套封装好的 UX 和所谓的“生态记忆”。

但如果开源社区把“记忆”这块拼图也补齐了，那剩下的可能就只有那块昂贵的算力招牌了。

当然，开源 Agent 现在用起来还是有点“拙（zhuō）”。配置环境、调优插件、处理各种奇葩的报错，这些都是门槛。

但别忘了，程序员最擅长的就是把“拙”的东西变优雅。

（顺便提一句，如果你还在为 Claude Code 的额度焦虑，真的可以去看看 Hermes 的文档了。虽然折腾，但那种“我的 Agent 我做主”的 vibe，确实挺上瘾的。）