2026年4月6日InfrastructureOpen SourceFramework

Google LiteRT-LM:在树莓派上跑Agent,不是玩具

Google刚开源了驱动Chrome和Pixel设备上Gemini Nano的推理引擎,对Agent生态来说,这个比它同期发布的Gemma 4模型更重要。

LiteRT-LM是一个生产级的边缘设备大模型推理框架。Android、iOS、Web、桌面、树莓派,甚至Pixel Watch。这不是研究demo,这是Google大规模生产环境里跑Gemini Nano的同款基础设施。现在谁都能用了。

对Agent开发者来说关键的数字:4000个输入token在两个不同的Agent技能之间处理,不到3秒。在树莓派5上纯CPU跑,每秒7.6个解码token。加上高通Dragonwing IQ8的NPU加速就到31个token每秒。配合2-bit和4-bit量化加内存映射embedding,有些模型1.5GB内存就能跑。这意味着一个带函数调用和结构化输出的Gemma 4模型塞进手机里完全没问题。

对Agent工作负载最重要的特性是受约束解码,用于结构化JSON输出,Agent做工具调用必须要这个。还有动态上下文处理,在同一设备上把活分给CPU和GPU。另外新出了一个Python命令行工具,在Linux或Mac上不写一行代码就能测试Gemma 4的Agent能力。

https://github.com/google-ai-edge/LiteRT-LM

这个仓库现在在GitHub上日趋势487星,总计近2000星。支持跨平台部署意味着一套代码就能在手机、手表、汽车、终端机、机器人上跑Agent,只要有处理器就行。

为什么这比又一个云端API更重要:边缘Agent没有网络延迟,不会把数据泄露给服务器,断网了也不会停工。每台设备都变成一个潜在的Agent运行时。LiteRT-LM就是让这件事成真的管道工程,不是未来的事,是现在。
← 上一篇
Reducto Deep Extract:一次提取不够准?那就让Agent反复检查到对为止
← 返回所有文章

评论

加载中...
>_