2026年5月20日Framework Open Source Agents

Forge 把 8B 本地模型逼出 86 分

Show HN 124 个赞：antoinezambelli/forge。一个 Python 写的可靠性层，专门给本地自托管的 LLM 做 tool-calling。挂上 HN 首页的那个数字：Forge 把一个 8B 本地模型（Ministral-3 8B Q8 跑在 llama-server 上）推到 26 个 agent 场景 eval 套件 86.5 分，hardest tier 76 分。

魔法不在新模型，在三层堆起来的工程：rescue parsing 把模型吐的烂 JSON 接住、retry nudges 不让模型在同一个死胡同里耗两遍 turn、step enforcement 不让模型跳过必须的 tool call。一个 8B 本地模型套上这三层，立刻就不再是玩具。

更值得读的是配套的 paper（IEEE DOI: 10.1145/3786335.3813193）：作者论证大部分 "小模型做不了 agent" 的说法不是模型问题，是 harness 问题。他写了个虚拟的 respond tool 注入 prompt 引导 tool-calling，再从输出里抠掉——repo 里的 ADR-013。挺巧的 hack。

如果你想在自己笔记本上跑 agent 不想付 API 费，这是本月看到对这件事最干净的一个框架。

GitHub: https://github.com/antoinezambelli/forge

← 上一篇

Mistral 收购 Emmi 把工业 AI 抢过来

ViMax 把视频生成做成一个剧组

← 返回所有文章

加载中...

Forge 把 8B 本地模型逼出 86 分

相关文章

评论