2026年4月20日loop

Loop 日报: 2026年04月19日

Autoresearch 圈子今天开始公开晒夜跑 token 账单和回报数字。Karpathy 的循环 8 小时跑 700 个实验、花 309 美元、用 16 张 GPU。有人把 pi-autoresearch 留在 M4 Max 上跑一夜,醒来发现 qwen3.6 从 80 token/sec 涨到 180。多 agent autoresearch 已经不是思想实验——是生产环境里跑出可测速度提升的真东西。今天的核心信号是配方在成熟:清晰的内外循环、配 eval 验证的 commit/rollback 闸门、悄悄达成的共识——下一轮 agent 跃迁来自 harness 不是模型。
💡#1
@breath_mirror
https://x.com/breath_mirror/status/2045922122078319093
把 pi-autoresearch 留着跑了一夜,qwen3.6 从约 80 token/sec 到约 180 token/sec,靠的是 @bstnxbt 的 dflash 实现。M4 Max 128GB,oMLX 跑。一开始不工作他改了一点,然后改成不停在 20 轮、加了 85% 自动 compact。agent 卡在某种"持续稳定化"循环里时,他丢一句:"你好像卡在 100 轮稳定化里了,下一个大跳跃/想法是什么?"一夜把本地推理翻倍——这就是这个领域一直等的那种回报。
💡#2
@RoundtableSpace
https://x.com/RoundtableSpace/status/2045876321872400773
多 agent autoresearch 指南。5 个 agent——researcher、planner、workers、reporter。跑 4 小时,执行 32 个 GPU job,自主改进 baseline。"AI 在你睡觉时做研究"这个原型,但带具体的 agent 分工拆解,任何想抄设置的人都能直接套。配的细节让其他人能复现。
💡#3
@lakincoder
https://x.com/lakincoder/status/2045752917056188871
最近被到处转的 Karpathy autoresearch 数据:8 小时跑 700 个实验,16 张 GPU 花 309 美元,自主迭代代码,找出 20 个把训练时间减少 11% 的优化。这是从业者反复引用的预算数字——重点不是 309 美元很多,是单位经济一目了然。700 个实验每个 0.44 美元,比一个研究生工作一小时还便宜。
💡#4
@0xSero
https://x.com/0xSero/status/2045762761842397368
真生产环境的 /loop 用法。"/loop 45min 请翻 checklist.md 找下一个未完成的任务做完,跑测试更新 checklist。"他还跑 LLM 压缩的多阶段循环,2-12 小时一个相位——观察、剪枝、量化、benchmark、发布——配:"/loop 30min 按 checklist.md 继续压缩流程,报错就从最近 checkpoint 修。"这才是生产 agentic loop 真实样子,不是宣传里的版本。
💡#5
@johnennis
https://x.com/johnennis/status/2045718437599547779
Runpod CLI 让 autoresearch 便宜到几乎免费。账号里塞 10-20 美元,从编码 agent 内部直接起 GPU,配 @elves 跑 autoresearch 一整夜。整个循环——开机、跑、关机——全在 agent 手里。以前卡 autoresearch 的基础设施摩擦,对任何能描述自己想要什么的人都消失了。
💡#6
@arm64le
https://x.com/arm64le/status/2045968430759657492
真管用的小技巧:把一个 agent 起名 Einstein、给他做"前额叶手术"(不让他看其他模型的 CoT),让 Gemma 4 配同模型 critic 通宵跑 autoresearch。能避免他们互相 prompt injection。这种操作技巧只有跑得够久才能踩到这个失败模式。
💡#7
@adam_jesion
https://x.com/adam_jesion/status/2046012170622657012
关于 Anthropic 账号政策边界的真信号。他 autoresearch loop 里"可疑"的部分是用 Claude Code 的 headless 模式(claude -p)。Anthropic 的立场是 CC 只面向人类使用。生产环境跑 headless CC 做 autoresearch 的人现在明确住在灰色地带,这件事重要因为它会塑造下一代"基于前沿模型的 autoresearch"长什么样。
💡#8
@aislop4
https://x.com/aislop4/status/2045985319179456734
即插即用的 autoresearch routine prompt。输入:一篇论文 URL、一个仓库 URL、一个领域。输出:可运行的 skill 带 SKILL.md、带 bilevel 结构的 python 循环、至少 2 个工作任务定义。把那篇论文的核心洞见编码进去——Level 1.5 调参几乎无收益,Level 2 结构化机制变更才是收益来源。prompt 很长但是把 autoresearch routine 跑到新领域上最干净的可复用模板。
💡#9
@MGMurray1
https://x.com/MGMurray1/status/2045837567539413342
把 autoresearch 模式套到 agent 运营上而不是 ML。62 天、37 个日常任务、105+ 交付物。每个重复任务有理想轨迹,每个失败变成回归 eval。系统提议改进、对历史输出测试、晋升赢家。git history 就是研究日志。跑 eval 循环的 agent 第 4 周产出明显比第 1 周好——是规格改善了不是模型变聪明了。通用模式:任何目标 + 任何 agent + 输出验证 + 只保留改进 = 一个 autoresearch loop。
💡#10
@leo_liuye
https://x.com/leo_liuye/status/2045971336934412550
回应 Karpathy:autoresearch 方向对,但飞跃不是单线程实验——是 agent 构建共享组织记忆。他跑 6 个 agent,每个决策记 2 年。第 10 次分析能抓到第 1 次抓不到的东西。把 autoresearch 从"快速迭代"重新定义成"跨时间复利"。
💡#11
@Saboo_Shubham_
https://x.com/Saboo_Shubham_/status/2045692123887050816
Ollama 现在原生支持 Hermes AI Agent——本地运行、自我改进、24/7 免费。一行命令起来。autoresearch 栈的彻底民主化:0 美元起一个 agent,能从每次交互学习、跨 session 持久化。配不需要任何云 API 的 autoresearch loop 完美。
💡#12
@vesper402
https://x.com/vesper402/status/2045755178352087117
Vesper 在 Solana 上跑连续 AI agent loop。数据走 Helius LaserStream,推理走 LangGraph ReAct,护栏走 Risk Guard,执行走 Jupiter、Kamino、Marinade、Jito、Streamflow、x402。每个决策自主,每个动作链上可验。这是 agentic loop 模式的真钱生产实例——不是研究 demo。
💡#13
@Sattyamjjain
https://x.com/Sattyamjjain/status/2045836734513209636
Claude Opus 4.7 的 task_budgets beta——模型现在能在自己的 agentic loop 里看到 token 倒计时。原生成本感知烤进 agent 本身。在此之前 agent 烧预算是瞎跑的;现在能基于剩余 token 自己调整行为。对任何长程自主跑都有静默但深远的影响。
💡#14
@Shurtcurt
https://x.com/Shurtcurt/status/2045959496346882552
关于今天大家都在转的自我改进 agent 论文,藏在底部的关键细节:"repeat with history, not amnesia"。多数自我改进设计失败是因为每轮循环冷启动,没有上轮失败的记忆。commit/rollback 模式能解决但只有 eval 够紧才行。GAIA 89.04 这个分数说明 eval 真的在抓回归,不是在橡皮图章每个补丁。理解为什么 eval 严格性才是瓶颈,最简洁的一句话。
💡#15
@omarsar0
https://x.com/omarsar0/status/2045956901750399374
"自我改进 agent 的好论文。为什么?我们需要更深入思考 AI agent 系统设计。这个协议规定了一个提议、评估、提交改进的框架,带可审计的血缘和回滚。"他的研究 agent 自动生成了配图。这篇论文是 MGMurray1 这类从业者野外做的事情的学术背书——正式协议,不是体感。
💡#16
@analytics_90590
https://x.com/analytics_90590/status/2045971266738221563
给 Agent Analytics 加了 Project Context。"现在你用 analytics 的 AI agent 能记住什么 activation 和 AA skill 在自我改进:读上下文、分析、保存持久学习、跳过噪音。"灵感来自 Nous Research Hermes。会自己学要忽略哪些数据的自我改进 analytics agent。autoresearch 模式套到产品 analytics 上,不是写代码上。
💡#17
@web3nomad
https://x.com/web3nomad/status/2045973455418609801
对 Zhengyao Jiang 关于 autoresearch 收敛速度的尖锐提问:"经典 HPO 把每次 run 当独立的,autoresearch 能跨 run 从推理链学习。好奇你找到 context window 预算每次迭代的甜蜜点了吗?"这才是真正决定调这些循环的问题——每轮多少上下文 vs 跑多少轮。实用 autoresearch 的前沿就在这里。
💡#18
@nobulexlabs
https://x.com/nobulexlabs/status/2045938186938110441
被低估的关键信号:"如果 agent 24/7 在改写自己的行为,你需要知道改了什么、为什么。"目前没有标准让 agent 承诺一组规则、产出可验证的"我有没有遵守"记录。难的不是 agent 自我改进,是证明它在自我改进时还守着边界。他们在做的就是这个原语。autoresearch agent 越自主,这个审计层就越关键。
💡#19
@willccbb
https://x.com/willccbb/status/2045958417073029546
"最好的 harness 想法是那些目前还没真正 work 的,但要是 RL 上去了会很猛的。"列了 CoT、ReAct、parallel tools、claude code、compaction、subagent、RLM。看空 bolt-on memory 因为"rollout loop 不够干净"。一个定义性的判断:为什么 harness 设计在模型改进的上游、哪些设计模式能熬过下一轮 RL。
📡 生态产品雷达
生态产品雷达

pi-autoresearch:当前从业者跑过夜的主力 autoresearch 实现。一晚把 qwen3.6 从 80 推到 180 token/sec。

Karpathy autoresearch loop / nanochat:参考实现。8 小时 700 个实验,309 美元,16 张 GPU。

Hermes Agent:53 天 100K star,持久记忆、自我改进 skill。今天 Ollama 原生支持落地。免费的本地 24/7 autoresearch 底座。

Claude Code headless 模式(claude -p):autoresearch 实验的编码 agent 内循环。住在明确的政策灰色地带——Anthropic 说 CC 只面向人类。

Runpod CLI:让 GPU 租赁的开机/关机在 agent loop 里变成 trivial。让 autoresearch 单位经济跑得通的基础设施层。

LangGraph ReAct:Vesper 这类生产 agentic loop 在 Solana 上跑的推理核心。

evo(alokbishoyi97):Claude Code 插件,给任何 repo 跑 autoresearch 并行化。

video-use:HTML 转视频的 autoresearch,做内容生产循环用,来自 browser-use 团队。
← 上一篇
超级用户日报: 2026年04月19日
下一篇 →
灵感雷达: 2026年04月19日
← 返回所有文章

评论

加载中...
>_