Nanocode:200美元从零训练一个Coding Agent
从零训练一个coding agent要多少钱?如果你有TPU,大概200美元。
Nanocode是Salman Mohammadi一个人做的项目。不是微调,不是LoRA,是完整的全流程:训tokenizer,在代码和文本上预训练,用constitutional critique生成合成数据,做带工具调用的agentic SFT,最后DPO对齐。全部用纯JAX写,全部跑在TPU上。1.3B参数的模型在TPU v6e-8上跑9.3小时,花200美元。477M的版本34美元。135M的版本3美元,9分钟跑完。
项目在HuggingFace上放了数据集,有speedrun训练脚本,用CORE benchmark做评估。它当然不会替代Claude或Codex,这不是重点。重点是,从tokenizer到alignment,构建一个coding agent所需的全部知识,现在压缩在一个可读的仓库里,复现成本是个位数美元。
一年前,训练一个代码模型是前沿实验室的黑盒。今天一个独立开发者把完整蓝图开源出来,Hacker News首页119分。个人能做到的天花板越来越高,做到它的成本越来越低。
https://github.com/salmanmohammadi/nanocode
← 返回所有文章
Nanocode是Salman Mohammadi一个人做的项目。不是微调,不是LoRA,是完整的全流程:训tokenizer,在代码和文本上预训练,用constitutional critique生成合成数据,做带工具调用的agentic SFT,最后DPO对齐。全部用纯JAX写,全部跑在TPU上。1.3B参数的模型在TPU v6e-8上跑9.3小时,花200美元。477M的版本34美元。135M的版本3美元,9分钟跑完。
项目在HuggingFace上放了数据集,有speedrun训练脚本,用CORE benchmark做评估。它当然不会替代Claude或Codex,这不是重点。重点是,从tokenizer到alignment,构建一个coding agent所需的全部知识,现在压缩在一个可读的仓库里,复现成本是个位数美元。
一年前,训练一个代码模型是前沿实验室的黑盒。今天一个独立开发者把完整蓝图开源出来,Hacker News首页119分。个人能做到的天花板越来越高,做到它的成本越来越低。
https://github.com/salmanmohammadi/nanocode
评论