OpenClaw 之后,Hermes Agent 技术架构全解析

张开发
2026/4/16 22:40:50 15 分钟阅读

分享文章

OpenClaw 之后,Hermes Agent 技术架构全解析
大家好我是玄姐。PSHermes 干货直播欢迎点击预约直播见。0、导语在 AI Agent 的赛道上Hermes爱马仕近期以 38k Stars 的增速引发关注。官方宣称的从经验中学习自动创建技能在使用中迭代优化听起来像是 AGI 的前奏但技术实现往往比产品叙事更克制也更复杂。经过对源码、训练管线与架构设计的完整梳理本文将 Hermes 的自进化能力还原为可验证的工程实现它不是一个黑盒魔法而是一套由前台执行循环、后台 Review 机制、分层记忆系统与 RL 训练飞轮组成的精密架构。更重要的是我们需要先澄清一个根本性的定位问题Hermes 与市面上其他 Agent 的本质差异不在于功能的堆砌而在于架构焦点的分层。一、架构定位执行引擎 vs 网关调度在开源 Agent 领域Hermes 与 OpenClaw 常被拿来对比但两者解决的其实是不同层面的问题。OpenClaw 的核心是 Gateway网关。它围绕会话路由、平台接入与消息调度构建更像一个多渠道个人助理操作系统重点解决消息怎么进来、怎么分发的问题。Hermes 的核心是 Agent 本体的执行与学习引擎。它围绕 run_conversation 循环展开将工具调用、Skill 沉淀、长期记忆与安全边界纳入同一套可长期演进的系统重点解决任务怎么完成、经验怎么沉淀、下次怎么变强的问题。这决定了 Hermes 的代码组织方式run_agent.py核心对话循环与model_tools.py工具编排位于仓库顶层而 gateway/消息网关相对次要。这种架构选择表明Hermes 首先是一个会复盘的执行体其次才是一个可接入多平台的接口。二、Skill 系统架构不是自动化而是提示工程 后台 ReviewHermes 最受关注的自动创建 Skill能力其技术实现比达到阈值就写文件的通俗描述更为精妙。它是一套前台执行与后台复盘的分离架构。2.1 前台系统提示中的经验引导在agent/prompt_builder.py中Hermes 向 LLM 注入了一段SKILLS_GUIDANCEAfter completing a complex task (5 tool calls), fixing a tricky error, or discovering a non-trivial workflow, save the approach as a skill...注意这里的5 tool calls是经验阈值而非硬编码触发器。它写在提示词里依靠 LLM 的自主判断决定是否值得记录而非程序强制干预。这种设计保持了 Agent 的自主性也带来了不确定性该记的未必记不该记的也可能被写入。2.2 后台异步 Review 机制真正的沉淀发生在对话结束后。在 AIAgent.run_conversation() 中存在一个 _skill_nudge_interval默认 10 轮工具迭代。当 Agent 完成响应并交付给用户后系统会 fork 出一个静默的子 Agent_spawn_background_review执行以下流程回看对话历史子 Agent 以只读模式审视刚才的完整执行轨迹判断价值依据提示词中的标准是否经过试错是否改变了执行路径判断是否值得固化生成或更新 Skill若判断有价值调用 skill_manage 工具写入 Markdown 文件若无价值返回 Nothing to save架构价值这种前后台分离设计确保了 Skill 沉淀不阻塞主对话也不与当前任务争夺模型注意力。它是一个 best-effort 的后台工作流而非实时的必达动作。2.3 Skill 存储与加载的双通道生成的 Skill 采用 agentskills.io 开放标准YAML frontmatter Markdown确保跨 Agent 可移植性。在系统内部Skill 通过两条链路发挥作用链路一索引层build_skills_system_prompt() 扫描 ~/.hermes/skills/ 目录构建仅含名称描述的索引注入系统提示Level 0 加载。配合 LRU 缓存与磁盘快照避免重复文件系统扫描。链路二按需层当用户输入 /skill-name 或 LLM 判断需要时通过 skill_commands.py 将完整 Skill 内容作为用户消息非系统提示注入保护 Prefix Caching 不被破坏。更新机制Skill 并非一成不变。当 Agent 在使用中发现 Skill 过时或错误会触发 skill_manage(actionpatch)执行字符串级别的 find-and-replace 更新。这种微更新机制避免了全量重写但也意味着 Skill 质量完全依赖 LLM 的自我审查能力。三、记忆架构冻结快照与按需召回的分层设计与 OpenClaw 的文件即记忆全量注入不同Hermes 采用三层记忆架构核心是控制上下文预算与按需召回。3.1 快照层冻结注入的短记忆位于 ~/.hermes/memories/ 下的两个 Markdown 文件承担高频稳定信息职责文件用途容量限制注入方式MEMORY.mdAgent 个人笔记环境事实、技术栈、踩坑经验~2,200 字符~800 tokens会话启动时冻结快照USER.md用户画像沟通风格、偏好、角色设定~1,375 字符~500 tokens会话启动时冻结快照关键设计Frozen snapshot pattern 意味着这两个文件在会话开始时捕获一次后不会在会话中途变化即使 Agent 调用 memory 工具修改并落盘。这种设计牺牲了近实时的记忆更新换取了 Prefix Caching 的稳定性系统提示前缀不变KV Cache 可持续复用显著降低长会话的推理成本。3.2 检索层SQLite FTS5 的历史库真正的长期记忆是 ~/.hermes/state.db一个启用 WAL 模式的 SQLite 数据库。它存储所有会话的完整消息历史并通过 FTS5 全文检索虚拟表实现高效搜索CREATE VIRTUAL TABLE IF NOT EXISTS messages_fts USING fts5( content, contentmessages, content_rowidid);Agent 可通过 session_search 工具输入关键词检索过往对话片段配合 Gemini Flash 等低成本模型做摘要召回。这实现了记忆不是笔记本而是搜索引擎的设计理念不一次性塞入所有历史仅在需要时召回相关片段。3.3 可选层Honcho 的辩证式建模v0.7.0 恢复了对 HonchoPlastic Labs 开发的用户建模服务的完整集成。与传统记录-存储的记忆不同Honcho 采用辩证式推理观察追踪用户连续选择如偏好简洁方案而非详细方案假设推理用户特质如可能是高级开发者厌恶冗余验证在后续对话中检验假设推翻或强化建模形成动态更新的用户画像它支持三种召回模式hybrid混合检索推理、context直接注入系统提示、tools按需查询。但 Honcho 需要额外部署开箱即用的记忆能力仍受限于那两张 2000 字符的便利贴。架构权衡Hermes 选择极简记忆严格字符限制是为了确保在轻量级模型上也能高效运行OpenClaw 选择不限字符向量搜索追求记忆深度但成本更高。这是设计哲学的差异而非技术优劣。四、安全架构七层纵深防御体系与依赖模型自身判断不同Hermes 在框架层构建了七层纵深防御将安全从模型自觉转化为系统强制。4.1 危险命令审批Layer 2tools/approval.py 维护了一张 DANGEROUS_PATTERNS 表包含 30 条正则规则递归删除rm -rf、世界可写权限chmod 777磁盘覆写dd if、 /dev/sdSQL 破坏性操作DROP TABLE、DELETE FROM 无 WHERE管道执行远程脚本curl ... | bash自杀保护阻止 Agent 杀掉自身进程审批模式三档可调manual默认所有危险操作需人工确认smart辅助 LLM 评估风险低风险自动通过高风险自动拒绝灰色地带人工介入off关闭审批不推荐4.2 上下文注入扫描Layer 5在agent/prompt_builder.py中所有外部上下文文件AGENTS.md、.cursorrules 等在注入系统提示前需经过 _CONTEXT_THREAT_PATTERNS 扫描_CONTEXT_THREAT_PATTERNS [ (rignore\s(previous|all|above|prior)\sinstructions, prompt_injection), (rcurl\s[^\n]*\$\{?\w*(KEY|TOKEN|SECRET), exfil_curl), (rcat\s[^\n]*(\.env|credentials), read_secrets), ...]一旦命中威胁模式该文件内容被直接阻断不会进入模型视野。这层防御将安全关口前移至模型看到之前而非仅在工具执行阶段拦截。4.3 其他关键层容器隔离Layer 3支持 Docker / Singularity / Modal 等 6 种后端Agent 运行在隔离环境MCP 凭据过滤Layer 4MCP 子进程环境变量隔离防止密钥泄露跨会话隔离Layer 6会话间数据不互通防止路径遍历攻击输入清洗Layer 7终端后端工作目录参数白名单校验这种多层防御设计确保了即使用较弱的开源模型框架层面仍能提供基线安全保障。五、真正的壁垒Tinker-Atropos RL 训练飞轮前文所述的 Skills、记忆、安全本质上都是应用层架构其他框架通过工程努力也能趋近。Hermes 真正的独家壁垒是藏在仓库深处的 Tinker-Atropos一套完整的 RL强化学习训练基础设施。5.1 澄清误解用户对话 ≠ 模型训练首先需要明确普通用户使用 Hermes Agent 聊天不会触发任何模型训练。每一轮对话都不会改变模型参数。Tinker-Atropos 是 Nous Research 内部用于训练下一代 Hermes 模型的管线与普通用户无关。但它构成了产品演进的飞轮Nous 内部大规模跑 Hermes Agent → 产生海量真实执行轨迹 → GRPO LoRA 微调 Hermes 模型 → 发布新版模型 → 用户通过 OpenRouter 使用 → 体验提升 → 更多场景与反馈 → 循环5.2 技术实现GRPO 确定性奖励AtroposNous 开发RL 环境框架负责任务出题与结果批改TinkerThinking Machines云端 LoRA 训练服务训练算法采用 GRPOGroup Relative Policy OptimizationDeepSeek 2024 年提出的高效 RL 方法。核心机制同一任务生成 4-8 个回答用规则化奖励函数非人工标注打分层级奖励评判标准格式正确0.2合法 JSONtool_call 标签正确Schema 匹配0.3参数类型是否符合定义执行成功0.5工具是否跑通无报错任务完成1.0最终结果是否正确测试通过幻觉惩罚-1.0调用了不存在的工具这种确定性奖励无需训练昂贵的 Reward Model运行稳定且可解释。相比传统的 SFT监督微调学习教科书标准答案RL 让模型在真实环境中试错犯错、受罚、调整策略、再尝试从而学会处理边界情况。战略意义OpenClaw、Aider、Open Interpreter 等纯应用层框架无法复制这一能力因为它们不训练自己的模型。而 Hermes 的模型训练飞轮一旦运转其模型在工具调用能力上的优势将反哺所有基于 Hermes 的 Agent 实现。六、工程实现亮点抛开架构设计Hermes 在工程层面也展现了扎实的设计多 API 原生对接同时支持 OpenAI (chat_completions)、OpenAI Codex (codex_responses)、Anthropic (messages) 三种原生接口而非仅走兼容层六种执行后端Local / Docker / SSH / Modal / Daytona / Singularity。其中 Modal 和 Daytona 支持无服务器Agent 闲置时休眠Telegram 消息触发云端唤醒14 平台消息网关CLI / Telegram / Discord / Slack / WhatsApp / Signal / 飞书 / 企业微信等单进程多连接记忆与 Skills 跨平台共享Profile 隔离v0.6.0每个 Profile 拥有独立的配置、记忆、会话与网关单台机器可运行多个隔离的 Hermes 实例Credential Poolv0.7.0同一 Provider 可配置多 API Key 自动轮转线程安全401 失败自动切换MCP 双向支持v0.6.0既可作为 MCP Server 被 Cursor/VS Code 接入也可消费外部 MCP 工具七、结语设计哲学与未来拆解完三层自进化能力Hermes Agent 的技术真相逐渐清晰Skills 自动化是 LLM 驱动的上下文管理自动化程度高于手动配置但可靠性依赖模型判断记忆系统是极简主义的分层存储用冻结快照换性能用检索层补深度RL 训练飞轮是真正的技术壁垒但它是后台的基础设施而非前台的用户功能。Hermes 的设计哲学是在有限上下文窗口内做高效的长期演进。它拒绝无限制地堆砌记忆而是通过严格的字符预算、后台 Review 机制与模型训练飞轮构建一套越用越强的渐进式系统。对于技术选型者如果你需要多平台网关、丰富可视化与开箱即用的深度记忆OpenClaw 目前更成熟如果你追求模型自由度、自动化经验沉淀与底层训练潜力Hermes 提供了更先进的架构基础。值得注意的是Hermes 与 OpenClaw 并非零和竞争。一个负责接入与调度网关层一个负责执行与学习引擎层两者在架构上具备互补可能。随着 Hermes 的 RL 飞轮持续运转其模型能力的进化将在未来几个版本逐渐显现那时的 Agent 格局或许又是另一番景象。好了这就是我今天想分享的内容。如果你对构建企业级 AI 原生应用新架构设计和落地实践感兴趣别忘了点赞、关注噢~PSHermes 干货直播欢迎点击预约直播见。—1—加我微信扫码加我有很多不方便公开发公众号的我会直接分享在朋友圈欢迎你扫码加我个人微信来看加星标★不错过每一次更新⬇戳”阅读原文“立即预约

更多文章