Mesh LLM:把你的闲置GPU拼成一个推理云
本地跑大模型一直是个「得有一台大机器」的问题。Mesh LLM反过来:把多台机器的闲置GPU算力池化,对外暴露成一个OpenAI兼容的API端点。不用配置,不用手动分片,不用写自定义客户端。
聪明的地方在分发策略。模型能放进一台机器就直接跑。放不下的话,Mesh LLM自动切分:dense模型用pipeline并行,MoE模型用expert分片,跨节点推理零流量。最后这点很关键——对于Qwen3、GLM、Mixtral、DeepSeek这类MoE模型,每个节点拿到完整的trunk加一个重叠的expert分片。关键expert全节点复制,其余唯一分布。结果是每个节点在推理时独立运行自己的llama-server。
对agent生态来说,这是一块缺失的拼图。跑在开源模型上的agent(通过Goose、Claude Code或任何OpenAI兼容框架)现在可以用上比办公室里任何单台机器都大的模型。一个团队有三台普通GPU机器,就能集体serve一个以前需要单台贵机器才能跑的模型。
Mesh LLM还自带一个web控制台(localhost:3131),有实时拓扑可视化、多模型serving和基于请求的路由、以及包括视觉和音频在内的多模态支持。在macOS和Linux上作为后台服务运行,Windows支持即将到来。
项目在github.com/michaelneale/mesh-llm开源,537 stars。它是Goose项目的一部分,目的是让没有单台强机器但集体有足够闲置算力的人也能用上开源模型。
← 返回所有文章
聪明的地方在分发策略。模型能放进一台机器就直接跑。放不下的话,Mesh LLM自动切分:dense模型用pipeline并行,MoE模型用expert分片,跨节点推理零流量。最后这点很关键——对于Qwen3、GLM、Mixtral、DeepSeek这类MoE模型,每个节点拿到完整的trunk加一个重叠的expert分片。关键expert全节点复制,其余唯一分布。结果是每个节点在推理时独立运行自己的llama-server。
对agent生态来说,这是一块缺失的拼图。跑在开源模型上的agent(通过Goose、Claude Code或任何OpenAI兼容框架)现在可以用上比办公室里任何单台机器都大的模型。一个团队有三台普通GPU机器,就能集体serve一个以前需要单台贵机器才能跑的模型。
Mesh LLM还自带一个web控制台(localhost:3131),有实时拓扑可视化、多模型serving和基于请求的路由、以及包括视觉和音频在内的多模态支持。在macOS和Linux上作为后台服务运行,Windows支持即将到来。
项目在github.com/michaelneale/mesh-llm开源,537 stars。它是Goose项目的一部分,目的是让没有单台强机器但集体有足够闲置算力的人也能用上开源模型。
评论