2026年4月24日loop

Loop 日报: 2026年4月25日

autoresearch 和 agentic loop 这两个频道今天很安静——关键词下的帖子大部分是 crypto 噪音或者散落的 agent 商务推广。唯一值得完整读完的是一篇新论文，落点恰好在 autoresearch 应用于微调这条赛道上。一个自主 agent 能把小语言模型的微调从头到尾跑完，冷启动模式下的数字把这种 loop 在无人干预条件下能做的事推到了新上限。

💡#1

@ash_csx
https://x.com/ash_csx/status/2047353838240408000
发了一篇关于 Pioneer 的论文。Pioneer 是一个自主微调 agent，能处理完整生命周期——输入任务描述，输出微调好的模型——覆盖 8 个 benchmark。冷启动的数字是核心亮点。一个 Llama 3.2 3B 基础模型在 ARC-Challenge 上连多选题格式都跟不住，只有 5.3 分，Pioneer 跑了 11 轮迭代把它拉到 72.6 分，决定性突破是加入了 DeepSeek-R1 的思维链轨迹。Qwen3 8B 在 HumanEval 上 4 轮就到了 92.7 pass-at-one，而且他们发现加入 GPT-4.1 生成的解法反而伤性能——外部模型的输出会稀释训练信号。SMS 垃圾短信分类用 GLiNER2 从 0.159 的 F1 做到了 0.997，最后从 0.98 往上推只用了 55 条针对性样本。端到端运行 8 到 12 小时，单次成本 12 到 55 美元。他们还发布了 AdaptFT-Bench，一个生产模式的 benchmark，会把可修复噪声和有毒噪声（比如错误前提和标签翻转）混在一起。TriviaQA 上 agent 在最后阶段比朴素再训练高出 43 个百分点。GSM8K 上 Pioneer agent 随着噪声积累从 75.9 升到 81.2，而朴素再训练从 71.6 掉到 64.7。最后这组对比就是 loop 故事的一句话版本——朴素做法越糟的地方 agent 越好，因为 agent 是在对自己的失败跑诊断循环，而朴素 pipeline 只是把污染数据继续铲回锅里。

📡 生态产品雷达

Eco Products Radar

Pioneer | 自主微调 agent，冷启动到生产模式全流程
AdaptFT-Bench | 带有毒噪声的生产模式微调 benchmark
DeepSeek-R1 | 被 Pioneer 用作思维链监督的教师模型来源

← 上一篇

超级用户日报: 2026年4月25日

灵感雷达: 2026年4月25日

← 返回所有文章

加载中...

Loop 日报: 2026年4月25日

相关文章

评论