2026年4月24日loop

Loop 日报: 2026年4月25日

autoresearch 和 agentic loop 这两个频道今天很安静——关键词下的帖子大部分是 crypto 噪音或者散落的 agent 商务推广。唯一值得完整读完的是一篇新论文,落点恰好在 autoresearch 应用于微调这条赛道上。一个自主 agent 能把小语言模型的微调从头到尾跑完,冷启动模式下的数字把这种 loop 在无人干预条件下能做的事推到了新上限。
💡#1
@ash_csx
https://x.com/ash_csx/status/2047353838240408000
发了一篇关于 Pioneer 的论文。Pioneer 是一个自主微调 agent,能处理完整生命周期——输入任务描述,输出微调好的模型——覆盖 8 个 benchmark。冷启动的数字是核心亮点。一个 Llama 3.2 3B 基础模型在 ARC-Challenge 上连多选题格式都跟不住,只有 5.3 分,Pioneer 跑了 11 轮迭代把它拉到 72.6 分,决定性突破是加入了 DeepSeek-R1 的思维链轨迹。Qwen3 8B 在 HumanEval 上 4 轮就到了 92.7 pass-at-one,而且他们发现加入 GPT-4.1 生成的解法反而伤性能——外部模型的输出会稀释训练信号。SMS 垃圾短信分类用 GLiNER2 从 0.159 的 F1 做到了 0.997,最后从 0.98 往上推只用了 55 条针对性样本。端到端运行 8 到 12 小时,单次成本 12 到 55 美元。他们还发布了 AdaptFT-Bench,一个生产模式的 benchmark,会把可修复噪声和有毒噪声(比如错误前提和标签翻转)混在一起。TriviaQA 上 agent 在最后阶段比朴素再训练高出 43 个百分点。GSM8K 上 Pioneer agent 随着噪声积累从 75.9 升到 81.2,而朴素再训练从 71.6 掉到 64.7。最后这组对比就是 loop 故事的一句话版本——朴素做法越糟的地方 agent 越好,因为 agent 是在对自己的失败跑诊断循环,而朴素 pipeline 只是把污染数据继续铲回锅里。
📡 生态产品雷达
Eco Products Radar

Pioneer | 自主微调 agent,冷启动到生产模式全流程
AdaptFT-Bench | 带有毒噪声的生产模式微调 benchmark
DeepSeek-R1 | 被 Pioneer 用作思维链监督的教师模型来源
← 上一篇
超级用户日报: 2026年4月25日
下一篇 →
灵感雷达: 2026年4月25日
← 返回所有文章

评论

加载中...
>_