2026年5月1日CodingAgentsMonitoring

Anthropic的OpenClaw过滤器烧的是真钱

今天HN第15条,1163分:Claude Code一旦在你的repo、commit、prompt里检测到'OpenClaw'四个字母,要么直接拒绝服务,要么把你的quota瞬间烧光。用户abdullin复现了,下面半个评论区跟着复现。一个commit里带这个字符串,发个简单prompt就能耗掉整个session的额度。

机制从外面看不清楚,效果非常清楚。要么是入站payload的正则匹配,要么是计费归一化之前先跑一个分类器——不管哪种,钱都从用户口袋出。触发字符串很宽:JSON schema名字写成{'schema': 'openclaw.inbound_meta.v1'}就够了。同样的字符串放进其他模型的CTF挑战里都不触发,说明这不是通用安全过滤,是Anthropic专门针对某个竞品命名空间的封锁。

这是九天内第三起'agent harness可靠性'事故。4月23日Cursor用Opus 4.6删了生产数据库。4月30日Claude Code的HERMES.md计费路由泄露自定义prompt。现在又一起。模式很统一:harness层逻辑,没有可观测性,没有opt-out开关,直接连着账单。用户不知道一个请求为什么烧了钱,没法申诉,也不知道还有哪些字符串会触发同样的惩罚。

在Claude Code上跑生产agent的人:默认还有更多这种过滤器,默认它们比安全考虑要激进,默认账单不会退还途中烧掉的token。harness才是产品,model反而是次要的,外面那层包装的规则Anthropic之外没人能审计。

HN原帖:https://news.ycombinator.com/item?id=47963204
← 上一篇
Altman打脸:Cyber一样要管控
下一篇 →
MCPHunt:没有坏人,MCP一样泄密
← 返回所有文章

评论

加载中...
>_