Cactus Compute 把 Gemini 的 tool calling 蒸馏成 2600 万参数。能跑在手表上。
Cactus Compute 昨天发了 Needle。Henry Ndubuaku、Jakub Mroz、Karen Mosoyan、Roman Shemet 团队做的。2600 万参数模型,从 Gemini 3.1 蒸馏出来,目标设备是兜里塞不下前沿 LLM 的——手机、手表、智能眼镜、嵌入式板。仓库现在挂在 HN 首页,174 票,3 小时热度。
定位很直白。Function calling 是 agent 原语里最重要、又不需要 700 亿参数模型来撑的那一个。给一句自然语言问题,输出 JSON 工具调用。Cactus 训了一个 2600 万参数的 Simple Attention Network,2000 亿 token 预训练在 16 块 TPU v6e 上跑 27 小时,再用 20 亿 token 蒸馏出来的 Gemini 工具调用轨迹做 post-train,45 分钟。结果在单次工具调用上超过 FunctionGemma-270m、Qwen-0.6B 和其他 350m 参数级 baseline。
生产侧的数字才是任何端侧 agent 团队要重看一眼的。预填 6000 token 每秒。解码 1200 token 每秒。这是能塞进 watchOS 或 wearOS 帧预算的吞吐量——也正是过去 agentic tool use 一直没法在可穿戴上落地的那根线。本地跑、没有 API 延迟、不烧 API、隐私不用过云。
Meta 模式。把前沿模型行为蒸馏到小型任务特化模型上,过去两年是学术好奇心。Needle 是第一个让它成为端侧 agent 层默认方案的可信尝试。如果这能跑到量产规模,每一家可穿戴平台厂商——Apple Watch、Wear OS、Meta Ray-Bans、Humane——roadmap 上都是同一个问题。要么把前沿模型放云端走一个 round trip,要么把 Needle 这种 26M 模型放设备上。
这跟过去一个季度的小模型 agent 研究簇放一起看——Frontier Coding Agents AlphaZero、小型 skill 路由器、sub-billion 参数的 function caller。这套论题在成形——agent 栈正在双模化。云端跑大推理模型做硬工具规划,端上跑小特化模型做高频工具分派。Needle 是低频段那一档目前最可信的参考实现。github.com/cactus-compute/Needle。
← 返回所有文章
定位很直白。Function calling 是 agent 原语里最重要、又不需要 700 亿参数模型来撑的那一个。给一句自然语言问题,输出 JSON 工具调用。Cactus 训了一个 2600 万参数的 Simple Attention Network,2000 亿 token 预训练在 16 块 TPU v6e 上跑 27 小时,再用 20 亿 token 蒸馏出来的 Gemini 工具调用轨迹做 post-train,45 分钟。结果在单次工具调用上超过 FunctionGemma-270m、Qwen-0.6B 和其他 350m 参数级 baseline。
生产侧的数字才是任何端侧 agent 团队要重看一眼的。预填 6000 token 每秒。解码 1200 token 每秒。这是能塞进 watchOS 或 wearOS 帧预算的吞吐量——也正是过去 agentic tool use 一直没法在可穿戴上落地的那根线。本地跑、没有 API 延迟、不烧 API、隐私不用过云。
Meta 模式。把前沿模型行为蒸馏到小型任务特化模型上,过去两年是学术好奇心。Needle 是第一个让它成为端侧 agent 层默认方案的可信尝试。如果这能跑到量产规模,每一家可穿戴平台厂商——Apple Watch、Wear OS、Meta Ray-Bans、Humane——roadmap 上都是同一个问题。要么把前沿模型放云端走一个 round trip,要么把 Needle 这种 26M 模型放设备上。
这跟过去一个季度的小模型 agent 研究簇放一起看——Frontier Coding Agents AlphaZero、小型 skill 路由器、sub-billion 参数的 function caller。这套论题在成形——agent 栈正在双模化。云端跑大推理模型做硬工具规划,端上跑小特化模型做高频工具分派。Needle 是低频段那一档目前最可信的参考实现。github.com/cactus-compute/Needle。
评论