2026年6月3日Open Source Infrastructure Tool

headroom：进LLM之前先压缩，token消耗降60-95%

工具调用返回了80KB的JSON。Agent直接塞进上下文。然后你发现token烧得飞快，还不知道为什么。headroom就是解决这个问题的——开源的上下文压缩层，在内容到达模型之前处理所有东西：工具输出、日志文件、RAG片段、对话历史。今天在GitHub日榜上涨了1,266颗星，总计6,148。

技术上有意思的是它的内容感知设计。不是一个算法压所有东西——每种内容类型走专门的管道。SmartCrusher处理JSON结构，CodeCompressor用AST感知技术处理代码，Kompress-base是专门用agent轨迹数据训练的自定义模型，CacheAligner优化前缀稳定性以提高KV缓存命中率。

三种部署方式：内联库、零代码修改的代理服务器、或MCP服务器。兼容Claude、Cursor、Codex、Copilot和所有OpenAI兼容客户端。还有headroom learn功能，从失败的agent会话里挖掘规律，写入纠正条目，避免重复犯同样的错误。https://github.com/chopratejas/headroom

← 上一篇

Nemotron 3 Ultra：英伟达5500亿参数开源模型，专门给Agent设计

SkillAdaptor：精确定位是哪个技能出了错，不动其他任何东西

← 返回所有文章

加载中...

headroom：进LLM之前先压缩，token消耗降60-95%

相关文章

评论