2026年4月22日loop

Loop 日报: 2026-04-23

今天 autoresearch 流水比较安静，但浮上来的几条都是诚实的。头条是：一个 $200 的栈在 Stanford Agentic Review 上打过了 $180k 的 FARS 系统——同一个作者紧接着说人类研究员暂时还安全。两位作者尝试用 loop 跑出能署自己名的论文，都老老实实承认没做到。叙事正在从「看 autoresearch 一夜搞出了什么」转向「loop 在哪儿会骗你」，这是更健康的位置。

💡#1

@xreviewer555
https://x.com/xreviewer555/status/2046682191938101676
搭了个大约 $200 的 auto-research 系统，在 Stanford Agentic Review 上跑赢 Analemma 的 FARS（$180k）。在 13 个 CS 领域上评了三个 agent：Claude Code（Opus 4.6）、Codex（GPT 5.4）、Kimi Code（K2.5），用 Ideation → Experiments → Paper → Review 四段管线。Claude 5.45 第一，Codex 4.93，Kimi 4.24。CPU 比 GPU 强，因为环境复杂度反噬。诚实的部分：Agentic Review 高估了——它会奖励「诚实的 negative result」哪怕方法本身是垃圾。AI 给 AI 打分的问题。三种失败模式被点名：实验设置最小化但又过度声称结论、复杂任务下的伪引用和伪参考、想法合理但都是增量。结论：agent 已经能跑通研究管线，但严谨性和忠实度还差远了。

💡#2

@achenfinance
https://x.com/achenfinance/status/2046612004870164671
他改了一篇 AI 生成的论文「Hedging the Singularity」，目标明确叫「human as Clockmaker」——把 agentic loop 搭好，让 AI 自己生成一篇好到能署自己名的稿子。没做到。说这个失败既让人失望也让人松口气。后续那条更值得收藏：能被 agentic loop 回答的问题很快就会变得不有趣了，要证明一件事真的成立还是得人和 AI 一起来。一位有 credentials 的研究员公开发表 negative result，而不是只发高光时刻，少见。

💡#3

@uripomerantz
https://x.com/uripomerantz/status/2046659883332997462
一位 fintech CEO 完整讲了他们怎么把信贷承保模型从 Optuna 风格的自动超参搜索升级到 Karpathy 风格的 autoresearch。Optuna 早就在跑几万种参数组合追 AUC 了，新模式的差别是 LLM agent 可以改特征定义、特征数量、几乎任何一个聪明研究员能想到的东西，不止超参。他的框架很直接：任何有 objective function 加足够耐心的问题，现在都是 autoresearch 问题。转化率优化、广告投放、outbound 销售，都是同一个 loop。本周最讲清楚「为什么这个范式不止于 ML 研究」的一篇短文。

💡#4

@omarsar0
https://x.com/omarsar0/status/2046597807990001981
一位有声誉的 AI 学者的观察：Karpathy 的 autoresearch 仓库带出了一波趋势，agent 现在能训练 AI 模型去构建 SoTA 的 agentic 系统。他的警告才是关键：「最终归结到好的研究问题或假设。LLM 在这件事上还不行（暂时）。」算力便宜，瓶颈是问题。和 @achenfinance 那篇失败论文揭示的是同一件事。

💡#5

@karimov_elshad
https://x.com/karimov_elshad/status/2046666336194175138
一条干净的科普 thread，把 Claude Code 重新框定为一个 agent loop 而不是 chat 应用。五步：prompt → 收集上下文 → 行动（改文件、跑 shell）→ 验证输出 → 循环或停止。重点是任何一步都能打断或纠偏。不是新东西，但对刚开始理解 coding agent 内部「loop」是什么的人来说，是个好的教学物料。

💡#6

@m13v_
https://x.com/m13v_/status/2046642127082516654
一条关于 Claude Code 5 小时滑动窗口的实战笔记：早 7 点启动一个 agentic loop，能悄悄把你正午的 session 干掉，发现的时候话才说一半。任何跑无人值守 loop 的人都得吃下这个细节——「跑了就不管」的代价不是账单意外，是无声的额度蒸发。

💡#7

@b04zy
https://x.com/b04zy/status/2046738528248197603
对 Claude Code 撤出 Pro 计划的反应：「Claude Cowork（和 Code 一样）也是建在 agentic loop 上的，所以保留 Cowork 但从 Pro 用户那里抽走 Code 是怪事。」一句吐槽里藏了个有用框架：Anthropic 在表态 agent loop 才是产品、chat 只是配件，但它在哪些 surface 给哪一档套餐这件事上又自相矛盾。

💡#8

@deepwatrcreatur
https://x.com/deepwatrcreatur/status/2046703889504706956
agent loop 带来的 100-1000x 生产力增长是真的，但分布极不均匀。他举的「聪明用法」例子是：把 webcam 对准在开发的设备屏幕，让模型能看见实际渲染了什么，从而闭合 agentic loop。这种闭环小招数大多数用户根本想不到，1000x 的 outlier 和 10x 的 baseline 之间隔的就是这层。

💡#9

@handsomeblob
https://x.com/handsomeblob/status/2046689789060018445
他和 @aria_agi 在把 auto-research 往 autonomous execution 推进——「一键发布的流程，把 idea 直接变成可创收的产物」。细节不多，但值得标记，因为它是显式的下一道地平线：不止优化一个指标，而是把优化好的东西直接推上线。loop 在沿价值链往上爬。

💡#10

@karimov_elshad
https://x.com/karimov_elshad/status/2046666342162690162
同一作者的 loop schema 第二版，更紧凑：prompt → context → action → verify → loop/stop。给非工程师讲为什么 agent loop 和聊天机器人不是一回事时，可以当作标准教学示意图。

💡#11

@leostera
https://x.com/leostera/status/2046612309166973133
他在搭一个带环境工具（class browser、playground 等）的小型 agentic loop，目前进度是要接到 Codex 上才能不慢得离谱。基本是状态更新，但有意思的地方在于和大玩家暴露的同一个模式：决定速度的是工具链，不是模型质量。

💡#12

@UrbanAstroFella
https://x.com/UrbanAstroFella/status/2046723137296085215
一个对 ChatGPT-image-2 agentic loop 的真实测试：让它生成 1920 年代 Savoia Marchetti S.55x 水上飞机的尺寸准确三视图（双船体飞翼、顶置双发，极其特殊）。它确实调用了多个工具迭代构图，但这架飞机的设计太反常，把模型甩开了。诚实的失败模式：loop 的优势在迭代细化，遇到训练分布之外的真新概念时，模型先验仍然把输出锚回常识。

💡#13

@developerpranab
https://x.com/developerpranab/status/2046597295118991432
一句话路线：agentic loop 加一个简单的 discover_tools 类工具做确定性匹配。小但是对的原语——把工具发现做成 loop 的一等公民，而不是固定的 prompt 列表，loop 就能随装随用。

📡 生态产品雷达

生态产品雷达

Karpathy autoresearch 仓库：还是引力中心——今天 4 篇以上的帖子都把它当灵感（xreviewer555、uripomerantz、omarsar0、handsomeblob）。

Claude Code：4 篇以上提及——m13v_ 谈 5 小时窗口、b04zy 谈 Pro 计划撤出、karimov_elshad 当 agent loop 教学样板、xreviewer555 当 Opus 4.6 评测对象。

Codex（GPT 5.4）：2 次提及（xreviewer555 评测、leostera 接入）——未达阈值但在升温。

Kimi Code（K2.5）：1 次（xreviewer555 三方对比）。

ChatGPT-image-2：1 次但带真实失败案例（UrbanAstroFella）。

← 上一篇

超级用户日报: 2026-04-23

灵感雷达: 2026-04-23

← 返回所有文章

加载中...

Loop 日报: 2026-04-23

更多文章

评论