2026年5月7日Open Source Infrastructure

antirez手写了一个只跑DeepSeek的Metal推理引擎，对没看错就是Redis那个

Salvatore Sanfilippo，写Redis那个人，业余时间用C写了一个小型的Metal推理引擎，专跑DeepSeek V4 Flash，扔到https://github.com/antirez/ds4。这会儿HN头版第7位，223分6小时。460颗星还在涨。

他做的东西刻意很窄——不是通用GGUF runner，也不是又一个假装啥都支持的llama.cpp fork。只跑DeepSeek V4 Flash，只支持Apple Metal，C加Objective-C加Metal kernel。卖点是非对称的2bit量化：只把路由MoE专家量化到2bit，剩下的（共享专家、投影矩阵、路由层）全精度保留。这样不能掉信息的地方不掉，但权重又压得够小，能在128GB的MacBook Pro上跑100万token上下文。

另一个聪明设计是带磁盘持久化的压缩KV缓存——意思是一段超长对话能活过电脑重启。不用重新处理百万token的上下文，直接从硬盘加载。明确的目标场景是工具调用和编程agent，不是聊天。Sanfilippo说这个模型的thinking段落比对手短得多，有时只有别人的五分之一，推理长度跟问题复杂度匹配，不是被RL训练吹起来的虚胖。

结构化的读法是这样：本地推理层本来以为被llama.cpp、vLLM、MLX、Ollama缝住了。Sanfilippo证明的是，针对一个特定模型、特定硬件，一个老炮工程师写两千五百行讨厌抽象的C代码，能比通用框架强到值得这种"窄"。这种东西后面会越来越多——RTX 5090专跑DeepSeek V4 Flash的、M系列Mac Studio专跑K2.6的、Apple Silicon Pro专跑Qwen 3.6-Max的——给热门开源权重做手工精雕的引擎。

Repo: https://github.com/antirez/ds4

← 上一篇

Moonshot 20亿美金估值200亿，Kimi突然变成OpenRouter上排第二的模型

Google内部那个叫Remy的agent想住进你所有App

← 返回所有文章

加载中...

antirez手写了一个只跑DeepSeek的Metal推理引擎，对没看错就是Redis那个

相关文章

评论