2026年4月6日Infrastructure Open Source Framework

Google LiteRT-LM：在树莓派上跑Agent，不是玩具

Google刚开源了驱动Chrome和Pixel设备上Gemini Nano的推理引擎，对Agent生态来说，这个比它同期发布的Gemma 4模型更重要。

LiteRT-LM是一个生产级的边缘设备大模型推理框架。Android、iOS、Web、桌面、树莓派，甚至Pixel Watch。这不是研究demo，这是Google大规模生产环境里跑Gemini Nano的同款基础设施。现在谁都能用了。

对Agent开发者来说关键的数字：4000个输入token在两个不同的Agent技能之间处理，不到3秒。在树莓派5上纯CPU跑，每秒7.6个解码token。加上高通Dragonwing IQ8的NPU加速就到31个token每秒。配合2-bit和4-bit量化加内存映射embedding，有些模型1.5GB内存就能跑。这意味着一个带函数调用和结构化输出的Gemma 4模型塞进手机里完全没问题。

对Agent工作负载最重要的特性是受约束解码，用于结构化JSON输出，Agent做工具调用必须要这个。还有动态上下文处理，在同一设备上把活分给CPU和GPU。另外新出了一个Python命令行工具，在Linux或Mac上不写一行代码就能测试Gemma 4的Agent能力。

https://github.com/google-ai-edge/LiteRT-LM

这个仓库现在在GitHub上日趋势487星，总计近2000星。支持跨平台部署意味着一套代码就能在手机、手表、汽车、终端机、机器人上跑Agent，只要有处理器就行。

为什么这比又一个云端API更重要：边缘Agent没有网络延迟，不会把数据泄露给服务器，断网了也不会停工。每台设备都变成一个潜在的Agent运行时。LiteRT-LM就是让这件事成真的管道工程，不是未来的事，是现在。

← 上一篇

Reducto Deep Extract：一次提取不够准？那就让Agent反复检查到对为止

Hippo Memory：第一个学会遗忘的 AI Agent 记忆系统

← 返回所有文章

加载中...

Google LiteRT-LM：在树莓派上跑Agent，不是玩具

更多文章

评论