带 OpenClaw,像带一个能力极不均匀的员工
摘要:OpenClaw 最让人头疼的,不是能力不够,而是能力分布极不均匀:顺时像天才,乱时像失忆实习生。与其继续魔改追求更强,不如先回到官方基线,把稳定性做出来。
这段时间我越来越强烈地感觉:带 OpenClaw,有点像带一个能力极不均匀的员工。
他在某些时候,执行力惊人。任务一旦说清楚,边界一旦明确,工具一旦顺手,产出的速度和完成度,常常会让人怀疑:这东西是不是已经可以替代掉一部分日常协作了。
但在另一些时候,他又会突然像换了一个人。刚交代过的事情,后面会忘;刚承诺过不再犯的问题,过两天原样再来一遍;甚至有时你明明在等一个回复,他却像下线了一样,毫无动静。那种落差,不只是体验不好,是真的会把人搞崩。
我后来慢慢意识到,问题不在于 OpenClaw 不够强,而在于它的能力分布太不均匀。
它不是一个“平均水准很高”的助手,而是一个局部能力极强、系统稳定性又不够好的助手。任务结构清楚时,它像一个顶配执行者;链路稍微复杂一点,或者上下文稍微长一点,它又会暴露出非常低级的问题。说白了,它最像的不是一个成熟员工,而是一个时强时弱、还带点失忆体质的超强实习生。
真正麻烦的,也不是它偶尔犯错,而是它犯错的方式会伤害信任。
如果一个系统只是能力有限,你会自然降低预期;但如果它一会儿很惊艳,一会儿又很愚蠢,你就很难建立稳定的使用节奏。你会开始反复确认、反复补充、反复兜底。这样一来,表面上看是你在用一个高能力工具,本质上却变成了你在持续照顾一个不稳定系统。
这也是为什么,后面我对 OpenClaw 的判断发生了变化。
一开始,我会很自然地追求“更强”:更多能力、更长流程、更多自动化、更激进的魔改。因为每次调通一个点,反馈都很好,甚至会让人上瘾。
但用着用着就会发现,魔改这条路,短期收益很高,长期维护成本更高。你今天补了一个洞,明天多了一层能力,后天一升级,前面的补丁可能就一起松掉。到最后,系统不是死在功能不够,而是死在结构过于复杂、依赖关系太多、每次升级都像拆炸弹。
所以现在我反而更倾向于另一条路线:先不要追求它最强,先把它做稳。
先保证几件最基础的事情:能稳定回复,能少失忆,升级后不容易炸,出了问题能快速定位。先把它从“偶尔像天才、偶尔像智障”的状态,拉回到“整体靠谱、预期稳定”的状态。
这件事听起来像退一步,但本质上不是。
对工具系统来说,稳定性本身就是能力。一个只能在顺风局里表现惊人的系统,不是真正可依赖的系统。真正能进入日常工作流的,不一定是最聪明的那个,而是那个在大多数时候都不掉链子的那个。
说白了,OpenClaw 现在最需要的,未必是再加 20% 的能力,而是先减少 80% 的随机犯病。
这也是我最近越来越明确的一个想法:与其继续往上叠魔改,不如逐步回到官方版本,把基线先收敛出来。
官方版不一定最强,但通常更可预测;流程少一点,补丁少一点,优先级清楚一点,问题也更容易定位一点。先把系统做成“靠谱员工”,再去考虑把它培养成“天才员工”。
对个人使用 AI 来说,这可能也是一个很现实的判断。
我们真正需要的,不只是一个会偶尔惊艳我们的系统,而是一个能长期协作、不轻易把人折腾崩的系统。惊艳当然重要,但能不能长期交付,往往更重要。
如果把 AI 当成员工,那管理它的方式也应该变一变:不要太相信它“下次不会了”的口头承诺,要把流程写下来,把记忆外置,把验收做清楚,把边界钉死。
因为很多时候,不是它学不会,而是你不能把稳定性寄托在它“自己记住”。
本质上,AI 不是靠承诺变可靠的,而是靠系统约束变可靠的。
这件事,值得深思。