2026年4月20日loop

Loop 日报: 2026年04月19日

Autoresearch 圈子今天开始公开晒夜跑 token 账单和回报数字。Karpathy 的循环 8 小时跑 700 个实验、花 309 美元、用 16 张 GPU。有人把 pi-autoresearch 留在 M4 Max 上跑一夜，醒来发现 qwen3.6 从 80 token/sec 涨到 180。多 agent autoresearch 已经不是思想实验——是生产环境里跑出可测速度提升的真东西。今天的核心信号是配方在成熟：清晰的内外循环、配 eval 验证的 commit/rollback 闸门、悄悄达成的共识——下一轮 agent 跃迁来自 harness 不是模型。

💡#1

@breath_mirror
https://x.com/breath_mirror/status/2045922122078319093
把 pi-autoresearch 留着跑了一夜，qwen3.6 从约 80 token/sec 到约 180 token/sec，靠的是 @bstnxbt 的 dflash 实现。M4 Max 128GB，oMLX 跑。一开始不工作他改了一点，然后改成不停在 20 轮、加了 85% 自动 compact。agent 卡在某种"持续稳定化"循环里时，他丢一句："你好像卡在 100 轮稳定化里了，下一个大跳跃/想法是什么？"一夜把本地推理翻倍——这就是这个领域一直等的那种回报。

💡#2

@RoundtableSpace
https://x.com/RoundtableSpace/status/2045876321872400773
多 agent autoresearch 指南。5 个 agent——researcher、planner、workers、reporter。跑 4 小时，执行 32 个 GPU job，自主改进 baseline。"AI 在你睡觉时做研究"这个原型，但带具体的 agent 分工拆解，任何想抄设置的人都能直接套。配的细节让其他人能复现。

💡#3

@lakincoder
https://x.com/lakincoder/status/2045752917056188871
最近被到处转的 Karpathy autoresearch 数据：8 小时跑 700 个实验，16 张 GPU 花 309 美元，自主迭代代码，找出 20 个把训练时间减少 11% 的优化。这是从业者反复引用的预算数字——重点不是 309 美元很多，是单位经济一目了然。700 个实验每个 0.44 美元，比一个研究生工作一小时还便宜。

💡#4

@0xSero
https://x.com/0xSero/status/2045762761842397368
真生产环境的 /loop 用法。"/loop 45min 请翻 checklist.md 找下一个未完成的任务做完，跑测试更新 checklist。"他还跑 LLM 压缩的多阶段循环，2-12 小时一个相位——观察、剪枝、量化、benchmark、发布——配："/loop 30min 按 checklist.md 继续压缩流程，报错就从最近 checkpoint 修。"这才是生产 agentic loop 真实样子，不是宣传里的版本。

💡#5

@johnennis
https://x.com/johnennis/status/2045718437599547779
Runpod CLI 让 autoresearch 便宜到几乎免费。账号里塞 10-20 美元，从编码 agent 内部直接起 GPU，配 @elves 跑 autoresearch 一整夜。整个循环——开机、跑、关机——全在 agent 手里。以前卡 autoresearch 的基础设施摩擦，对任何能描述自己想要什么的人都消失了。

💡#6

@arm64le
https://x.com/arm64le/status/2045968430759657492
真管用的小技巧：把一个 agent 起名 Einstein、给他做"前额叶手术"（不让他看其他模型的 CoT），让 Gemma 4 配同模型 critic 通宵跑 autoresearch。能避免他们互相 prompt injection。这种操作技巧只有跑得够久才能踩到这个失败模式。

💡#7

@adam_jesion
https://x.com/adam_jesion/status/2046012170622657012
关于 Anthropic 账号政策边界的真信号。他 autoresearch loop 里"可疑"的部分是用 Claude Code 的 headless 模式（claude -p）。Anthropic 的立场是 CC 只面向人类使用。生产环境跑 headless CC 做 autoresearch 的人现在明确住在灰色地带，这件事重要因为它会塑造下一代"基于前沿模型的 autoresearch"长什么样。

💡#8

@aislop4
https://x.com/aislop4/status/2045985319179456734
即插即用的 autoresearch routine prompt。输入：一篇论文 URL、一个仓库 URL、一个领域。输出：可运行的 skill 带 SKILL.md、带 bilevel 结构的 python 循环、至少 2 个工作任务定义。把那篇论文的核心洞见编码进去——Level 1.5 调参几乎无收益，Level 2 结构化机制变更才是收益来源。prompt 很长但是把 autoresearch routine 跑到新领域上最干净的可复用模板。

💡#9

@MGMurray1
https://x.com/MGMurray1/status/2045837567539413342
把 autoresearch 模式套到 agent 运营上而不是 ML。62 天、37 个日常任务、105+ 交付物。每个重复任务有理想轨迹，每个失败变成回归 eval。系统提议改进、对历史输出测试、晋升赢家。git history 就是研究日志。跑 eval 循环的 agent 第 4 周产出明显比第 1 周好——是规格改善了不是模型变聪明了。通用模式：任何目标 + 任何 agent + 输出验证 + 只保留改进 = 一个 autoresearch loop。

💡#10

@leo_liuye
https://x.com/leo_liuye/status/2045971336934412550
回应 Karpathy：autoresearch 方向对，但飞跃不是单线程实验——是 agent 构建共享组织记忆。他跑 6 个 agent，每个决策记 2 年。第 10 次分析能抓到第 1 次抓不到的东西。把 autoresearch 从"快速迭代"重新定义成"跨时间复利"。

💡#11

@Saboo_Shubham_
https://x.com/Saboo_Shubham_/status/2045692123887050816
Ollama 现在原生支持 Hermes AI Agent——本地运行、自我改进、24/7 免费。一行命令起来。autoresearch 栈的彻底民主化：0 美元起一个 agent，能从每次交互学习、跨 session 持久化。配不需要任何云 API 的 autoresearch loop 完美。

💡#12

@vesper402
https://x.com/vesper402/status/2045755178352087117
Vesper 在 Solana 上跑连续 AI agent loop。数据走 Helius LaserStream，推理走 LangGraph ReAct，护栏走 Risk Guard，执行走 Jupiter、Kamino、Marinade、Jito、Streamflow、x402。每个决策自主，每个动作链上可验。这是 agentic loop 模式的真钱生产实例——不是研究 demo。

💡#13

@Sattyamjjain
https://x.com/Sattyamjjain/status/2045836734513209636
Claude Opus 4.7 的 task_budgets beta——模型现在能在自己的 agentic loop 里看到 token 倒计时。原生成本感知烤进 agent 本身。在此之前 agent 烧预算是瞎跑的；现在能基于剩余 token 自己调整行为。对任何长程自主跑都有静默但深远的影响。

💡#14

@Shurtcurt
https://x.com/Shurtcurt/status/2045959496346882552
关于今天大家都在转的自我改进 agent 论文，藏在底部的关键细节："repeat with history, not amnesia"。多数自我改进设计失败是因为每轮循环冷启动，没有上轮失败的记忆。commit/rollback 模式能解决但只有 eval 够紧才行。GAIA 89.04 这个分数说明 eval 真的在抓回归，不是在橡皮图章每个补丁。理解为什么 eval 严格性才是瓶颈，最简洁的一句话。

💡#15

@omarsar0
https://x.com/omarsar0/status/2045956901750399374
"自我改进 agent 的好论文。为什么？我们需要更深入思考 AI agent 系统设计。这个协议规定了一个提议、评估、提交改进的框架，带可审计的血缘和回滚。"他的研究 agent 自动生成了配图。这篇论文是 MGMurray1 这类从业者野外做的事情的学术背书——正式协议，不是体感。

💡#16

@analytics_90590
https://x.com/analytics_90590/status/2045971266738221563
给 Agent Analytics 加了 Project Context。"现在你用 analytics 的 AI agent 能记住什么 activation 和 AA skill 在自我改进：读上下文、分析、保存持久学习、跳过噪音。"灵感来自 Nous Research Hermes。会自己学要忽略哪些数据的自我改进 analytics agent。autoresearch 模式套到产品 analytics 上，不是写代码上。

💡#17

@web3nomad
https://x.com/web3nomad/status/2045973455418609801
对 Zhengyao Jiang 关于 autoresearch 收敛速度的尖锐提问："经典 HPO 把每次 run 当独立的，autoresearch 能跨 run 从推理链学习。好奇你找到 context window 预算每次迭代的甜蜜点了吗？"这才是真正决定调这些循环的问题——每轮多少上下文 vs 跑多少轮。实用 autoresearch 的前沿就在这里。

💡#18

@nobulexlabs
https://x.com/nobulexlabs/status/2045938186938110441
被低估的关键信号："如果 agent 24/7 在改写自己的行为，你需要知道改了什么、为什么。"目前没有标准让 agent 承诺一组规则、产出可验证的"我有没有遵守"记录。难的不是 agent 自我改进，是证明它在自我改进时还守着边界。他们在做的就是这个原语。autoresearch agent 越自主，这个审计层就越关键。

💡#19

@willccbb
https://x.com/willccbb/status/2045958417073029546
"最好的 harness 想法是那些目前还没真正 work 的，但要是 RL 上去了会很猛的。"列了 CoT、ReAct、parallel tools、claude code、compaction、subagent、RLM。看空 bolt-on memory 因为"rollout loop 不够干净"。一个定义性的判断：为什么 harness 设计在模型改进的上游、哪些设计模式能熬过下一轮 RL。

📡 生态产品雷达

生态产品雷达

pi-autoresearch：当前从业者跑过夜的主力 autoresearch 实现。一晚把 qwen3.6 从 80 推到 180 token/sec。

Karpathy autoresearch loop / nanochat：参考实现。8 小时 700 个实验，309 美元，16 张 GPU。

Hermes Agent：53 天 100K star，持久记忆、自我改进 skill。今天 Ollama 原生支持落地。免费的本地 24/7 autoresearch 底座。

Claude Code headless 模式（claude -p）：autoresearch 实验的编码 agent 内循环。住在明确的政策灰色地带——Anthropic 说 CC 只面向人类。

Runpod CLI：让 GPU 租赁的开机/关机在 agent loop 里变成 trivial。让 autoresearch 单位经济跑得通的基础设施层。

LangGraph ReAct：Vesper 这类生产 agentic loop 在 Solana 上跑的推理核心。

evo（alokbishoyi97）：Claude Code 插件，给任何 repo 跑 autoresearch 并行化。

video-use：HTML 转视频的 autoresearch，做内容生产循环用，来自 browser-use 团队。

← 上一篇

超级用户日报: 2026年04月19日

灵感雷达: 2026年04月19日

← 返回所有文章

加载中...

Loop 日报: 2026年04月19日

更多文章

评论