antirez手写了一个只跑DeepSeek的Metal推理引擎,对没看错就是Redis那个
Salvatore Sanfilippo,写Redis那个人,业余时间用C写了一个小型的Metal推理引擎,专跑DeepSeek V4 Flash,扔到https://github.com/antirez/ds4。这会儿HN头版第7位,223分6小时。460颗星还在涨。
他做的东西刻意很窄——不是通用GGUF runner,也不是又一个假装啥都支持的llama.cpp fork。只跑DeepSeek V4 Flash,只支持Apple Metal,C加Objective-C加Metal kernel。卖点是非对称的2bit量化:只把路由MoE专家量化到2bit,剩下的(共享专家、投影矩阵、路由层)全精度保留。这样不能掉信息的地方不掉,但权重又压得够小,能在128GB的MacBook Pro上跑100万token上下文。
另一个聪明设计是带磁盘持久化的压缩KV缓存——意思是一段超长对话能活过电脑重启。不用重新处理百万token的上下文,直接从硬盘加载。明确的目标场景是工具调用和编程agent,不是聊天。Sanfilippo说这个模型的thinking段落比对手短得多,有时只有别人的五分之一,推理长度跟问题复杂度匹配,不是被RL训练吹起来的虚胖。
结构化的读法是这样:本地推理层本来以为被llama.cpp、vLLM、MLX、Ollama缝住了。Sanfilippo证明的是,针对一个特定模型、特定硬件,一个老炮工程师写两千五百行讨厌抽象的C代码,能比通用框架强到值得这种"窄"。这种东西后面会越来越多——RTX 5090专跑DeepSeek V4 Flash的、M系列Mac Studio专跑K2.6的、Apple Silicon Pro专跑Qwen 3.6-Max的——给热门开源权重做手工精雕的引擎。
Repo: https://github.com/antirez/ds4
← 返回所有文章
他做的东西刻意很窄——不是通用GGUF runner,也不是又一个假装啥都支持的llama.cpp fork。只跑DeepSeek V4 Flash,只支持Apple Metal,C加Objective-C加Metal kernel。卖点是非对称的2bit量化:只把路由MoE专家量化到2bit,剩下的(共享专家、投影矩阵、路由层)全精度保留。这样不能掉信息的地方不掉,但权重又压得够小,能在128GB的MacBook Pro上跑100万token上下文。
另一个聪明设计是带磁盘持久化的压缩KV缓存——意思是一段超长对话能活过电脑重启。不用重新处理百万token的上下文,直接从硬盘加载。明确的目标场景是工具调用和编程agent,不是聊天。Sanfilippo说这个模型的thinking段落比对手短得多,有时只有别人的五分之一,推理长度跟问题复杂度匹配,不是被RL训练吹起来的虚胖。
结构化的读法是这样:本地推理层本来以为被llama.cpp、vLLM、MLX、Ollama缝住了。Sanfilippo证明的是,针对一个特定模型、特定硬件,一个老炮工程师写两千五百行讨厌抽象的C代码,能比通用框架强到值得这种"窄"。这种东西后面会越来越多——RTX 5090专跑DeepSeek V4 Flash的、M系列Mac Studio专跑K2.6的、Apple Silicon Pro专跑Qwen 3.6-Max的——给热门开源权重做手工精雕的引擎。
Repo: https://github.com/antirez/ds4
评论