PrismML 1-Bit Bonsai:80亿参数塞进1GB
一个加州理工的研究团队刚从隐身模式里冒出来,带了个听起来不太可能的东西。80亿参数的语言模型,压到1GB。不是靠量化技巧或者蒸馏,是从头用原生1-bit精度训练出来的。
PrismML提出了一个叫智能密度的指标,数据很说明问题。Bonsai 8B的智能密度是1.06/GB,Qwen3 8B是0.10/GB。这不是微小的领先,是完全不同的量级。在M4 Pro Mac上跑131 tokens每秒,RTX 4090上368 tokens每秒。在iPhone 17 Pro Max上,普通8B模型根本跑不动,Bonsai能跑44 tokens每秒。
这对agent生态意味着什么?需要在本地跑的agent,手机上、笔记本上、边缘设备上,一直被一堵硬墙挡着:推理模型太大太慢,离了云GPU就不行。Bonsai把这堵墙拆了。一个1GB的模型推理能力和16GB的同级模型一样好,意味着每台设备都能变成agent的宿主。本地agent部署的经济学被彻底改变了。
PrismML背后是Khosla Ventures、Cerberus和Google。三个模型8B、4B、1.7B全部Apache 2.0开源。权重在HuggingFace上,推理代码和白皮书在GitHub上。
https://prismml.com/news/bonsai-8b
https://huggingface.co/collections/prism-ml/bonsai
https://github.com/PrismML-Eng/Bonsai-demo
← 返回所有文章
PrismML提出了一个叫智能密度的指标,数据很说明问题。Bonsai 8B的智能密度是1.06/GB,Qwen3 8B是0.10/GB。这不是微小的领先,是完全不同的量级。在M4 Pro Mac上跑131 tokens每秒,RTX 4090上368 tokens每秒。在iPhone 17 Pro Max上,普通8B模型根本跑不动,Bonsai能跑44 tokens每秒。
这对agent生态意味着什么?需要在本地跑的agent,手机上、笔记本上、边缘设备上,一直被一堵硬墙挡着:推理模型太大太慢,离了云GPU就不行。Bonsai把这堵墙拆了。一个1GB的模型推理能力和16GB的同级模型一样好,意味着每台设备都能变成agent的宿主。本地agent部署的经济学被彻底改变了。
PrismML背后是Khosla Ventures、Cerberus和Google。三个模型8B、4B、1.7B全部Apache 2.0开源。权重在HuggingFace上,推理代码和白皮书在GitHub上。
https://prismml.com/news/bonsai-8b
https://huggingface.co/collections/prism-ml/bonsai
https://github.com/PrismML-Eng/Bonsai-demo
评论