
闭源巨头的后院起火:Hermes 0.7 与大模型记忆体系的开源倒计时
上周 Anthropic 刚因为 Claude Code 的额度 Bug 被开发者骂上热搜,这周开源社区就有人来“趁火打劫”了。
NousResearch 悄悄发布了 Hermes Agent v0.7.0。
说实话,我刚看到这个版本号的时候没太在意,毕竟现在每天都有几十个自称“最强开源 Agent”的东西冒出来。但刷完推特上那几个硬核开发者的 demo,我发现这火烧得有点旺。
记忆不再是“黑盒”
以前我们聊 AI Agent 的记忆,总觉得那是闭源大厂的护城河。
不管是 Claude 的 prompt caching,还是 OpenAI 那个神神秘秘的 memory 功能,说白了都是在云端帮你存点东西,然后收你一笔不菲的 token 费。
但 Hermes 0.7 走了一条完全相反的路:插件化记忆系统(Modular Memory)。
它不再试图在一个无限长的 context window 里塞进所有东西,而是把记忆拆成了可插拔的模块。你可以用本地的 SQLite 存,可以用 Git 管理,甚至可以用 Karpathy 最近推崇的那套“Markdown Wiki”方案。
说到 @karpathy,他那条关于“LLM Knowledge Base”的推文已经冲到了 570 万次曝光。他的核心观点很简单:别迷信 RAG(向量检索),让大模型自己把原始资料“编译”成结构化的 Markdown。
这简直就是给开源 Agent 递了把刀。
闭源巨头的“后院”
为什么说这是后院起火?
因为闭源大厂现在的处境很尴尬。他们一方面要维持高昂的 API 利润,另一方面又要处理像 Claude Code 那种“1 小时烧掉 100 刀”的额度灾难(@rezoundous 吐槽说 100 的套餐用起来像 20,这事儿换谁都得炸)。
而开源 Agent 配合本地模型(比如最近火得一塌糊涂的 Gemma 4),正在把这套逻辑拆解掉:
- 成本归零:本地运行,没有 token 计费,你想让 Agent 思考多久就思考多久。
- 确定性记忆:用 Markdown 和 Git 管理记忆,意味着你可以像回滚代码一样回滚 AI 的认知。
- 隐私安全:你的代码库和知识库不需要传到任何人的服务器上。
NousResearch 这次发布的 Hermes 0.7,最屌的地方在于它把这套流程标准化了。它不是一个简单的 chatbot,而是一个带插件系统的底座。
护城河还剩几块砖?
我一直觉得,大模型的护城河正在从“模型能力”快速向“工程实现”转移。
当 Qwen 3.6-Plus 的编码能力已经能跟 Claude Opus 掰手腕,当 Gemma 4 能在 Mac 上跑出 300 tokens/s 的时候,闭源大厂唯一的优势就是那套封装好的 UX 和所谓的“生态记忆”。
但如果开源社区把“记忆”这块拼图也补齐了,那剩下的可能就只有那块昂贵的算力招牌了。
当然,开源 Agent 现在用起来还是有点“拙(zhuō)”。配置环境、调优插件、处理各种奇葩的报错,这些都是门槛。
但别忘了,程序员最擅长的就是把“拙”的东西变优雅。
(顺便提一句,如果你还在为 Claude Code 的额度焦虑,真的可以去看看 Hermes 的文档了。虽然折腾,但那种“我的 Agent 我做主”的 vibe,确实挺上瘾的。)

