2026年5月12日Open Source Research Framework

Cactus Compute 把 Gemini 的 tool calling 蒸馏成 2600 万参数。能跑在手表上。

Cactus Compute 昨天发了 Needle。Henry Ndubuaku、Jakub Mroz、Karen Mosoyan、Roman Shemet 团队做的。2600 万参数模型，从 Gemini 3.1 蒸馏出来，目标设备是兜里塞不下前沿 LLM 的——手机、手表、智能眼镜、嵌入式板。仓库现在挂在 HN 首页，174 票，3 小时热度。

定位很直白。Function calling 是 agent 原语里最重要、又不需要 700 亿参数模型来撑的那一个。给一句自然语言问题，输出 JSON 工具调用。Cactus 训了一个 2600 万参数的 Simple Attention Network，2000 亿 token 预训练在 16 块 TPU v6e 上跑 27 小时，再用 20 亿 token 蒸馏出来的 Gemini 工具调用轨迹做 post-train，45 分钟。结果在单次工具调用上超过 FunctionGemma-270m、Qwen-0.6B 和其他 350m 参数级 baseline。

生产侧的数字才是任何端侧 agent 团队要重看一眼的。预填 6000 token 每秒。解码 1200 token 每秒。这是能塞进 watchOS 或 wearOS 帧预算的吞吐量——也正是过去 agentic tool use 一直没法在可穿戴上落地的那根线。本地跑、没有 API 延迟、不烧 API、隐私不用过云。

Meta 模式。把前沿模型行为蒸馏到小型任务特化模型上，过去两年是学术好奇心。Needle 是第一个让它成为端侧 agent 层默认方案的可信尝试。如果这能跑到量产规模，每一家可穿戴平台厂商——Apple Watch、Wear OS、Meta Ray-Bans、Humane——roadmap 上都是同一个问题。要么把前沿模型放云端走一个 round trip，要么把 Needle 这种 26M 模型放设备上。

这跟过去一个季度的小模型 agent 研究簇放一起看——Frontier Coding Agents AlphaZero、小型 skill 路由器、sub-billion 参数的 function caller。这套论题在成形——agent 栈正在双模化。云端跑大推理模型做硬工具规划，端上跑小特化模型做高频工具分派。Needle 是低频段那一档目前最可信的参考实现。github.com/cactus-compute/Needle。

← 上一篇

Stanford 把 agent 做到比 Docker 快 5 倍，靠的是把「执行轨迹」当成真相之源。

ComplexMCP 用 300 个工具、7 个有状态 sandbox 测 agent。最强 LLM 还是输给人。

← 返回所有文章

加载中...

Cactus Compute 把 Gemini 的 tool calling 蒸馏成 2600 万参数。能跑在手表上。

更多文章

评论