HaoLiu's blog

闭源巨头的后院起火:Hermes 0.7 与大模型记忆体系的开源倒计时

2026 04 03 cover 1 v2.png
Published on
/
5 mins read
/
––– views

cover

闭源巨头的后院起火:Hermes 0.7 与大模型记忆体系的开源倒计时

上周 Anthropic 刚因为 Claude Code 的额度 Bug 被开发者骂上热搜,这周开源社区就有人来“趁火打劫”了。

NousResearch 悄悄发布了 Hermes Agent v0.7.0

说实话,我刚看到这个版本号的时候没太在意,毕竟现在每天都有几十个自称“最强开源 Agent”的东西冒出来。但刷完推特上那几个硬核开发者的 demo,我发现这火烧得有点旺。

记忆不再是“黑盒”

以前我们聊 AI Agent 的记忆,总觉得那是闭源大厂的护城河。

不管是 Claude 的 prompt caching,还是 OpenAI 那个神神秘秘的 memory 功能,说白了都是在云端帮你存点东西,然后收你一笔不菲的 token 费。

但 Hermes 0.7 走了一条完全相反的路:插件化记忆系统(Modular Memory)

它不再试图在一个无限长的 context window 里塞进所有东西,而是把记忆拆成了可插拔的模块。你可以用本地的 SQLite 存,可以用 Git 管理,甚至可以用 Karpathy 最近推崇的那套“Markdown Wiki”方案。

说到 @karpathy,他那条关于“LLM Knowledge Base”的推文已经冲到了 570 万次曝光。他的核心观点很简单:别迷信 RAG(向量检索),让大模型自己把原始资料“编译”成结构化的 Markdown。

这简直就是给开源 Agent 递了把刀。

闭源巨头的“后院”

为什么说这是后院起火?

因为闭源大厂现在的处境很尴尬。他们一方面要维持高昂的 API 利润,另一方面又要处理像 Claude Code 那种“1 小时烧掉 100 刀”的额度灾难(@rezoundous 吐槽说 100 的套餐用起来像 20,这事儿换谁都得炸)。

而开源 Agent 配合本地模型(比如最近火得一塌糊涂的 Gemma 4),正在把这套逻辑拆解掉:

  1. 成本归零:本地运行,没有 token 计费,你想让 Agent 思考多久就思考多久。
  2. 确定性记忆:用 Markdown 和 Git 管理记忆,意味着你可以像回滚代码一样回滚 AI 的认知。
  3. 隐私安全:你的代码库和知识库不需要传到任何人的服务器上。

NousResearch 这次发布的 Hermes 0.7,最屌的地方在于它把这套流程标准化了。它不是一个简单的 chatbot,而是一个带插件系统的底座。

护城河还剩几块砖?

我一直觉得,大模型的护城河正在从“模型能力”快速向“工程实现”转移。

当 Qwen 3.6-Plus 的编码能力已经能跟 Claude Opus 掰手腕,当 Gemma 4 能在 Mac 上跑出 300 tokens/s 的时候,闭源大厂唯一的优势就是那套封装好的 UX 和所谓的“生态记忆”。

但如果开源社区把“记忆”这块拼图也补齐了,那剩下的可能就只有那块昂贵的算力招牌了。

当然,开源 Agent 现在用起来还是有点“拙(zhuō)”。配置环境、调优插件、处理各种奇葩的报错,这些都是门槛。

但别忘了,程序员最擅长的就是把“拙”的东西变优雅。

(顺便提一句,如果你还在为 Claude Code 的额度焦虑,真的可以去看看 Hermes 的文档了。虽然折腾,但那种“我的 Agent 我做主”的 vibe,确实挺上瘾的。)