用"爱马仕"踢掉OpenClaw？但未解决最根本问题-墙外头条

4月初，Hermes Agent火了。这个名字直接让人联想到奢侈品牌爱马仕，所以也被圈内戏称为“爱马仕Agent”。

它由 Nous Research 在 2 月发布，定位是“The agent that grows with you”。核心卖点是一个闭环学习系统：Agent 完成复杂任务后，自动把经验固化成 Skill，下次遇到类似任务直接复用，还能在使用过程中持续改进。Skill 自动生成、越用越强——这是 Agent 领域目前最有吸引力的叙事之一。

但这个叙事遮蔽了一个更基本的问题：Skill 真的是当前 Agent 落地的主要瓶颈吗？

用"爱马仕"踢掉OpenClaw？但未解决最根本问题

图片

01 Skill 很性感，但它可能不是最重要的问题

一个容易被忽略的事实是：目前公认体验最好的编程 Agent 产品之一——Claude Code，它好用的基石并不是 Skill 的自动进化，而是背后大量扎实的CLI 工具支撑。

用 GlobTool 找候选文件，用 GrepTool 定位相关代码片段，用 FileReadTool 查看实现细节，用 LSPTool 做代码符号跳转和引用分析。每一个都是确定性的、零 token 消耗的原子操作。

但人们很少为这些工具写故事。只要一提到 Agent 能自动生成 Skill、还能持续进化，整个行业立刻就兴奋起来。

这个反差说明了一件事：CLI （命令行界面）不性感，不好讲故事，但它才是 Agent 能力的真正地基。

地基不牢，Skill 再会长，也只是长在沙地上。

02 龙虾最被人诟病的地方，Skill 自主进化解决不了

这件事放到OpenClaw（俗称“龙虾”）身上会看得更清楚。

OpenClaw 最被人诟病的两点，一是 token 消耗大、账单吃不消，二是长时间工作稳定性差、经常失联。乍一看是两个问题；往下拆，会发现它们经常来自同一个源头：Agent 在用劣质工具——比如脆弱的浏览器自动化——去完成本该由确定性工具完成的任务。

这类成本在社区里并非抽象的抱怨，而有大量具体案例。

Reddit 上有 OpenClaw 用户提到，自己只是想自动化 X 账号发帖，三次尝试就花掉了 10 美元，任务还没真正跑通。还有人在 r/automation 里直言，现在很多所谓的 AI Agent 浏览器控制，本质上只是“披着智能外衣的脆弱自动化”——问题不在模型有多笨，而在底层工具本身就不可靠。页面一变、DOM 一改、按钮状态一抖，Agent 就只能一遍遍观察、一遍遍重试、一遍遍重新规划。

而这些“失败但不致命”的试错过程，并不会因为任务没完成就免费——每一次观察页面、分析状态、决定下一步，都在继续消耗 token。

于是，稳定性问题和成本问题，其实是同一个问题的两面：工具越脆弱，试错越多；试错越多，token 烧得越快；任务链越长，失联和中断的概率也越高。

从这个角度看，Skill 自主进化解决的是“怎么更聪明地使用一个工具”，但并没有解决“好工具本身稀缺”的问题。Skill 可以让 Agent 更熟练地驾驭一匹跛脚马，但并不能把跛脚马变成千里马。

这才是今天很多 Agent 系统真正卡住的地方：不是 Skill 不够强，而是底下能调度的高质量原子工具太少。

03 Skill 是对模型能力的补丁

Hermes 做的事情，本质上是把 Skill 的生成和优化自动化——让 Agent 从经验中蒸馏知识，不再需要人手写。这确实解决了一个真实痛点。

但Skill 本身有一个更深层的问题：它是自然语言驱动的，本质上是模型能力的延伸，或者说，是一种对模型能力的借贷。

现状是，大量 Agent 在用 Skill 加上自主解题能力，完成本该由 CLI 完成的事情——比如以效率低下的浏览器自动化方案查一个股票价格、下载一张图片、提交一个表单。代价很清楚：贵、慢、不稳定、调试难。

这里还有一个常见的认知误区，可以叫做“Skill 可迁移幻觉”：很多人以为，用强模型写出来的 Skill，可以无缝迁移给弱模型用。实际上不能。Skill 是自然语言指令，它对模型能力有隐性依赖；模型一换，行为就可能变。CLI 则不同——它是代码：同样的输入，永远给你同样的输出，不管底下跑的是什么模型。

二者的区别非常鲜明：

Skill 调试难，CLI 调试容易；

Skill 烧 token，CLI 近乎零消耗；

Skill 吃模型版本，CLI 不吃；

Skill 是语义层资产，CLI 是执行层资产。

如果把 Skill 当成核心积累方向，本质上是把赌注压在模型能力的稳定性上。至少在当前阶段，更值得积累的是高质量 CLI。

04 当工具和上下文足够好时，Skill 的优先级会自然下降

上面的分析也能从 Anthropic 自己的产品经验里得到印证。

Anthropic 的设计负责人、Cowork 产品的设计主导者 Jenny Wen 在近期访谈中提到一个细节：她个人其实不怎么用 Cowork 的 Skills 功能。原因不是她否定 Skill，而是她在 Cowork 里挂载了一个文件夹，里面有自己长期积累的个人笔记、一对一会议记录、随手想法和工作观察。对她来说，Cowork 从这些材料里已经学到了足够的信息，以至于她对 Skill 和 Memory 的需求都被显著削弱了。

这并不是说 Skill 没有价值，而是说：当上下文管理足够好、底层工具足够强时，Skill 的优先级会自然下降。

换言之，Hermes 所强调的 Skill 自主进化并不是错，而是它解决的问题很可能没有想象中那么基础。

05 有一件事正在悄悄发生：CLI 的使用者，从人变成了 Agent

如果说 Skill 解决的是应用层的编排问题，那么更底层的变化发生在 CLI 上。

过去，CLI 是为人设计的。给人用的 CLI 可以有交互提示，可以容忍模糊输出，也可以在文档不全的时候靠用户自己猜——因为人会停下来，会理解歧义，会重试，会去查文档。

Agent 不一样。

Agent 不睡觉，不容忍歧义，会并发，会在没有预料到的时机无限重试。一个对人类来说“勉强能用”的 CLI，对 Agent 来说可能就是高频事故源。

给 Agent 用的 CLI 必须满足一组完全不同的要求：

一条命令只产出一个明确结果；

输出是结构化的 JSON；

错误信息不仅告诉你哪里错了，还要告诉 Agent 下一步该怎么办；

长任务必须支持异步，不能让 Agent 傻等；

接口天然支持幂等、重试和并发。

背后只有一句话：以前的软件默认使用者要睡觉、会分心、有耐心；现在 Agent 不满足这些前提。

一旦使用者从人变成 Agent，CLI 的设计哲学就需要从头重写。Agent 真正在乎的是 token 消耗、缓存命中率、幻觉控制、长程稳定性，而不是“这个命令看起来是否优雅”。

06 浏览器里能看到的，都值得被 CLI 化

有一个实验很能说明问题：把 ChatGPT 的网页版变成一个可以被 Agent 调用的 CLI。

做法并不神秘——通过 Chrome CDP 协议直接驱动浏览器，操作 DOM，填输入框，点发送，等待文字出现，再把结果抓下来。因为复用了已有登录态，行为上和人在浏览器里操作没有本质区别。

这个实验背后更大的洞察是：浏览器里能看到的，原则上都可以被 CLI 化。

不只是 ChatGPT——Gemini、音乐生成、视频生成、股票图表，只要能在浏览器里完成的流程，都可以被代码重复执行，最后收敛成一条 Agent 可调用的命令。

一旦一个 Web 流程被 CLI 化，它就会从“需要 Agent 一步步盯着网页试错”的流程，变成“可并发、可异步、可幂等的原子操作”。原来要靠浏览器自动化消耗大量 token 才能完成的事，被压缩成了一条命令、一个结构化结果。

某种意义上，这是一条很反直觉但非常现实的优化路径：节省 token 的方法，不是少让 Agent 干活，而是先烧一点 token，把高频流程预制成 CLI。磨刀不误砍柴工。

这个逻辑也不只适用于 Web。桌面应用和手机 App，本质上都可以被逐步 CLI 化，what you see is what can cli。目前已有不少开源项目在分别推进这三个方向，只是三者之间还没有形成统一的设计语言和引起大家足够的重视。

07 分层才是终态

Agent 的未来，除了模型本身的提升，更取决于如何处理好两种逻辑：确定性逻辑和语义逻辑。

前者靠 CLI，后者靠 Skill 的自适应和进化。Hermes 解决的是后者，但前者才是今天很多系统真正缺的底座。

如果把 CLI 化推到极致，会出现一件很反直觉的事：一类流程完全固定的任务，Agent 只需要判断任务类型、路由到对应 CLI、拿结果回来——这个过程理论上甚至不需要 LLM，几个 if-else 就够了。你甚至可以用代码去模拟 LLM 的输入输出接口，零 token、零延迟，继续复用现有的 Agent 调度机制，只在真正需要判断的地方才调用真实模型。

这有点像 2026 年的一场“代码的文艺复兴”——人们开始重新发现，不是所有“看起来像智能”的问题都应该交给模型来解决。

终态的分工应该是三层：

CLI 层：确定性执行，零 token，可并发，易测试，不依赖任何模型；

Skill 层：上下文编排和经验蒸馏，越用越强；

LLM 层：提供智能，做真正需要语义判断的部分。

三层不是竞争关系，而是依赖关系。

今天很多系统的问题在于，它们跳过了 CLI 层，直接让 Skill 和 LLM 去兜底。结果就是：系统又贵又慢，稳定性也差。正确的路径应该是——开发者预制 CLI，上层应用自动管理 Skill，LLM 在 Skill 的辅助下使用 CLI 解决问题。

Hermes 的出现不是终点，而是一个信号：Skill 层的问题可能正在被解决，但下一个真正的战场，在 CLI 层。

Web 端、PC 端、移动端，三大平台系统性的 CLI 改造才刚刚开始。这可能才是今天 Agent 领域最值得做、也最不性感，但最关键的事情。