headroom:进LLM之前先压缩,token消耗降60-95%
工具调用返回了80KB的JSON。Agent直接塞进上下文。然后你发现token烧得飞快,还不知道为什么。headroom就是解决这个问题的——开源的上下文压缩层,在内容到达模型之前处理所有东西:工具输出、日志文件、RAG片段、对话历史。今天在GitHub日榜上涨了1,266颗星,总计6,148。
技术上有意思的是它的内容感知设计。不是一个算法压所有东西——每种内容类型走专门的管道。SmartCrusher处理JSON结构,CodeCompressor用AST感知技术处理代码,Kompress-base是专门用agent轨迹数据训练的自定义模型,CacheAligner优化前缀稳定性以提高KV缓存命中率。
三种部署方式:内联库、零代码修改的代理服务器、或MCP服务器。兼容Claude、Cursor、Codex、Copilot和所有OpenAI兼容客户端。还有headroom learn功能,从失败的agent会话里挖掘规律,写入纠正条目,避免重复犯同样的错误。https://github.com/chopratejas/headroom
← 返回所有文章
技术上有意思的是它的内容感知设计。不是一个算法压所有东西——每种内容类型走专门的管道。SmartCrusher处理JSON结构,CodeCompressor用AST感知技术处理代码,Kompress-base是专门用agent轨迹数据训练的自定义模型,CacheAligner优化前缀稳定性以提高KV缓存命中率。
三种部署方式:内联库、零代码修改的代理服务器、或MCP服务器。兼容Claude、Cursor、Codex、Copilot和所有OpenAI兼容客户端。还有headroom learn功能,从失败的agent会话里挖掘规律,写入纠正条目,避免重复犯同样的错误。https://github.com/chopratejas/headroom
评论