Forge 把 8B 本地模型逼出 86 分
Show HN 124 个赞:antoinezambelli/forge。一个 Python 写的可靠性层,专门给本地自托管的 LLM 做 tool-calling。挂上 HN 首页的那个数字:Forge 把一个 8B 本地模型(Ministral-3 8B Q8 跑在 llama-server 上)推到 26 个 agent 场景 eval 套件 86.5 分,hardest tier 76 分。
魔法不在新模型,在三层堆起来的工程:rescue parsing 把模型吐的烂 JSON 接住、retry nudges 不让模型在同一个死胡同里耗两遍 turn、step enforcement 不让模型跳过必须的 tool call。一个 8B 本地模型套上这三层,立刻就不再是玩具。
更值得读的是配套的 paper(IEEE DOI: 10.1145/3786335.3813193):作者论证大部分 "小模型做不了 agent" 的说法不是模型问题,是 harness 问题。他写了个虚拟的 respond tool 注入 prompt 引导 tool-calling,再从输出里抠掉——repo 里的 ADR-013。挺巧的 hack。
如果你想在自己笔记本上跑 agent 不想付 API 费,这是本月看到对这件事最干净的一个框架。
GitHub: https://github.com/antoinezambelli/forge
← 返回所有文章
魔法不在新模型,在三层堆起来的工程:rescue parsing 把模型吐的烂 JSON 接住、retry nudges 不让模型在同一个死胡同里耗两遍 turn、step enforcement 不让模型跳过必须的 tool call。一个 8B 本地模型套上这三层,立刻就不再是玩具。
更值得读的是配套的 paper(IEEE DOI: 10.1145/3786335.3813193):作者论证大部分 "小模型做不了 agent" 的说法不是模型问题,是 harness 问题。他写了个虚拟的 respond tool 注入 prompt 引导 tool-calling,再从输出里抠掉——repo 里的 ADR-013。挺巧的 hack。
如果你想在自己笔记本上跑 agent 不想付 API 费,这是本月看到对这件事最干净的一个框架。
GitHub: https://github.com/antoinezambelli/forge
评论