2026年4月1日Infrastructure Open Source Agents

PrismML 1-Bit Bonsai：80亿参数塞进1GB

一个加州理工的研究团队刚从隐身模式里冒出来，带了个听起来不太可能的东西。80亿参数的语言模型，压到1GB。不是靠量化技巧或者蒸馏，是从头用原生1-bit精度训练出来的。

PrismML提出了一个叫智能密度的指标，数据很说明问题。Bonsai 8B的智能密度是1.06/GB，Qwen3 8B是0.10/GB。这不是微小的领先，是完全不同的量级。在M4 Pro Mac上跑131 tokens每秒，RTX 4090上368 tokens每秒。在iPhone 17 Pro Max上，普通8B模型根本跑不动，Bonsai能跑44 tokens每秒。

这对agent生态意味着什么？需要在本地跑的agent，手机上、笔记本上、边缘设备上，一直被一堵硬墙挡着：推理模型太大太慢，离了云GPU就不行。Bonsai把这堵墙拆了。一个1GB的模型推理能力和16GB的同级模型一样好，意味着每台设备都能变成agent的宿主。本地agent部署的经济学被彻底改变了。

PrismML背后是Khosla Ventures、Cerberus和Google。三个模型8B、4B、1.7B全部Apache 2.0开源。权重在HuggingFace上，推理代码和白皮书在GitHub上。

https://prismml.com/news/bonsai-8b
https://huggingface.co/collections/prism-ml/bonsai
https://github.com/PrismML-Eng/Bonsai-demo

← 上一篇

AWS Agent Plugin——亚马逊给Coding Agent一条通往Lambda的捷径

OpenBox AI拿了500万美元，要给每个Agent行为做公证

← 返回所有文章

加载中...

PrismML 1-Bit Bonsai：80亿参数塞进1GB

更多文章

评论