MinT 想在一个底模上跑一百万个 LoRA agent
Mind Lab 在 arXiv 放了一篇论文(2605.13779)叫 MinT,全称是 Managed Infrastructure for Training and Serving Millions of LLMs。今天早上 HuggingFace 上 141 个赞,但这个赞数低估了这个 idea 的战略重要性。署名 61 个作者。
卖点是——别再把每个微调模型当一个独立 checkpoint 处理。让一个前沿规模的底模常驻,每个个性化版本都是一个 LoRA adapter 按需加载卸载。亮点数字:底模规模能撑到一万亿参数以上、adapter 大小能压到底模的 1% 以下、横向能撑到 10 的 6 次方个独立可寻址的 LoRA 策略并发训练。最后这个——「一个共享底座上几百万个独立可训练的策略」——把这篇从单纯的推理论文变成了 agent 基础设施论文。
工程上的胜利很具体。仅传 adapter 把 4B 模型的数据迁移量降 18.3 倍,30B 模型降 2.85 倍。多策略并发训练把处理时间缩到原来的 1/1.77 跟 1/1.45,内存开销不涨。打包过的 MoE LoRA 张量让引擎加载效率提升 8.5 倍到 8.7 倍。任何时刻部署波次里能同时活跃几千个 adapter。
为什么对 agent thesis 关键——现在任何想认真做「个性化 agent」的产品,都被迫在两条路里选——in-context 个性化(便宜但漏水)或者全量微调(贵而且慢)。MinT 把中间这一段补上了,per-user agent 个性化就是一个 LoRA adapter,用户登录的时候加载进来。如果这个产品化了,个性化 agent 的单位经济学就从「一个 agent 一个集群」变成「一个集群一百万个 agent」。论文是 arXiv 2605.13779。
← 返回所有文章
卖点是——别再把每个微调模型当一个独立 checkpoint 处理。让一个前沿规模的底模常驻,每个个性化版本都是一个 LoRA adapter 按需加载卸载。亮点数字:底模规模能撑到一万亿参数以上、adapter 大小能压到底模的 1% 以下、横向能撑到 10 的 6 次方个独立可寻址的 LoRA 策略并发训练。最后这个——「一个共享底座上几百万个独立可训练的策略」——把这篇从单纯的推理论文变成了 agent 基础设施论文。
工程上的胜利很具体。仅传 adapter 把 4B 模型的数据迁移量降 18.3 倍,30B 模型降 2.85 倍。多策略并发训练把处理时间缩到原来的 1/1.77 跟 1/1.45,内存开销不涨。打包过的 MoE LoRA 张量让引擎加载效率提升 8.5 倍到 8.7 倍。任何时刻部署波次里能同时活跃几千个 adapter。
为什么对 agent thesis 关键——现在任何想认真做「个性化 agent」的产品,都被迫在两条路里选——in-context 个性化(便宜但漏水)或者全量微调(贵而且慢)。MinT 把中间这一段补上了,per-user agent 个性化就是一个 LoRA adapter,用户登录的时候加载进来。如果这个产品化了,个性化 agent 的单位经济学就从「一个 agent 一个集群」变成「一个集群一百万个 agent」。论文是 arXiv 2605.13779。
评论