2026年4月22日loop

Loop 日报: 2026-04-23

今天 autoresearch 流水比较安静,但浮上来的几条都是诚实的。头条是:一个 $200 的栈在 Stanford Agentic Review 上打过了 $180k 的 FARS 系统——同一个作者紧接着说人类研究员暂时还安全。两位作者尝试用 loop 跑出能署自己名的论文,都老老实实承认没做到。叙事正在从「看 autoresearch 一夜搞出了什么」转向「loop 在哪儿会骗你」,这是更健康的位置。
💡#1
@xreviewer555
https://x.com/xreviewer555/status/2046682191938101676
搭了个大约 $200 的 auto-research 系统,在 Stanford Agentic Review 上跑赢 Analemma 的 FARS($180k)。在 13 个 CS 领域上评了三个 agent:Claude Code(Opus 4.6)、Codex(GPT 5.4)、Kimi Code(K2.5),用 Ideation → Experiments → Paper → Review 四段管线。Claude 5.45 第一,Codex 4.93,Kimi 4.24。CPU 比 GPU 强,因为环境复杂度反噬。诚实的部分:Agentic Review 高估了——它会奖励「诚实的 negative result」哪怕方法本身是垃圾。AI 给 AI 打分的问题。三种失败模式被点名:实验设置最小化但又过度声称结论、复杂任务下的伪引用和伪参考、想法合理但都是增量。结论:agent 已经能跑通研究管线,但严谨性和忠实度还差远了。
💡#2
@achenfinance
https://x.com/achenfinance/status/2046612004870164671
他改了一篇 AI 生成的论文「Hedging the Singularity」,目标明确叫「human as Clockmaker」——把 agentic loop 搭好,让 AI 自己生成一篇好到能署自己名的稿子。没做到。说这个失败既让人失望也让人松口气。后续那条更值得收藏:能被 agentic loop 回答的问题很快就会变得不有趣了,要证明一件事真的成立还是得人和 AI 一起来。一位有 credentials 的研究员公开发表 negative result,而不是只发高光时刻,少见。
💡#3
@uripomerantz
https://x.com/uripomerantz/status/2046659883332997462
一位 fintech CEO 完整讲了他们怎么把信贷承保模型从 Optuna 风格的自动超参搜索升级到 Karpathy 风格的 autoresearch。Optuna 早就在跑几万种参数组合追 AUC 了,新模式的差别是 LLM agent 可以改特征定义、特征数量、几乎任何一个聪明研究员能想到的东西,不止超参。他的框架很直接:任何有 objective function 加足够耐心的问题,现在都是 autoresearch 问题。转化率优化、广告投放、outbound 销售,都是同一个 loop。本周最讲清楚「为什么这个范式不止于 ML 研究」的一篇短文。
💡#4
@omarsar0
https://x.com/omarsar0/status/2046597807990001981
一位有声誉的 AI 学者的观察:Karpathy 的 autoresearch 仓库带出了一波趋势,agent 现在能训练 AI 模型去构建 SoTA 的 agentic 系统。他的警告才是关键:「最终归结到好的研究问题或假设。LLM 在这件事上还不行(暂时)。」算力便宜,瓶颈是问题。和 @achenfinance 那篇失败论文揭示的是同一件事。
💡#5
@karimov_elshad
https://x.com/karimov_elshad/status/2046666336194175138
一条干净的科普 thread,把 Claude Code 重新框定为一个 agent loop 而不是 chat 应用。五步:prompt → 收集上下文 → 行动(改文件、跑 shell)→ 验证输出 → 循环或停止。重点是任何一步都能打断或纠偏。不是新东西,但对刚开始理解 coding agent 内部「loop」是什么的人来说,是个好的教学物料。
💡#6
@m13v_
https://x.com/m13v_/status/2046642127082516654
一条关于 Claude Code 5 小时滑动窗口的实战笔记:早 7 点启动一个 agentic loop,能悄悄把你正午的 session 干掉,发现的时候话才说一半。任何跑无人值守 loop 的人都得吃下这个细节——「跑了就不管」的代价不是账单意外,是无声的额度蒸发。
💡#7
@b04zy
https://x.com/b04zy/status/2046738528248197603
对 Claude Code 撤出 Pro 计划的反应:「Claude Cowork(和 Code 一样)也是建在 agentic loop 上的,所以保留 Cowork 但从 Pro 用户那里抽走 Code 是怪事。」一句吐槽里藏了个有用框架:Anthropic 在表态 agent loop 才是产品、chat 只是配件,但它在哪些 surface 给哪一档套餐这件事上又自相矛盾。
💡#8
@deepwatrcreatur
https://x.com/deepwatrcreatur/status/2046703889504706956
agent loop 带来的 100-1000x 生产力增长是真的,但分布极不均匀。他举的「聪明用法」例子是:把 webcam 对准在开发的设备屏幕,让模型能看见实际渲染了什么,从而闭合 agentic loop。这种闭环小招数大多数用户根本想不到,1000x 的 outlier 和 10x 的 baseline 之间隔的就是这层。
💡#9
@handsomeblob
https://x.com/handsomeblob/status/2046689789060018445
他和 @aria_agi 在把 auto-research 往 autonomous execution 推进——「一键发布的流程,把 idea 直接变成可创收的产物」。细节不多,但值得标记,因为它是显式的下一道地平线:不止优化一个指标,而是把优化好的东西直接推上线。loop 在沿价值链往上爬。
💡#10
@karimov_elshad
https://x.com/karimov_elshad/status/2046666342162690162
同一作者的 loop schema 第二版,更紧凑:prompt → context → action → verify → loop/stop。给非工程师讲为什么 agent loop 和聊天机器人不是一回事时,可以当作标准教学示意图。
💡#11
@leostera
https://x.com/leostera/status/2046612309166973133
他在搭一个带环境工具(class browser、playground 等)的小型 agentic loop,目前进度是要接到 Codex 上才能不慢得离谱。基本是状态更新,但有意思的地方在于和大玩家暴露的同一个模式:决定速度的是工具链,不是模型质量。
💡#12
@UrbanAstroFella
https://x.com/UrbanAstroFella/status/2046723137296085215
一个对 ChatGPT-image-2 agentic loop 的真实测试:让它生成 1920 年代 Savoia Marchetti S.55x 水上飞机的尺寸准确三视图(双船体飞翼、顶置双发,极其特殊)。它确实调用了多个工具迭代构图,但这架飞机的设计太反常,把模型甩开了。诚实的失败模式:loop 的优势在迭代细化,遇到训练分布之外的真新概念时,模型先验仍然把输出锚回常识。
💡#13
@developerpranab
https://x.com/developerpranab/status/2046597295118991432
一句话路线:agentic loop 加一个简单的 discover_tools 类工具做确定性匹配。小但是对的原语——把工具发现做成 loop 的一等公民,而不是固定的 prompt 列表,loop 就能随装随用。
📡 生态产品雷达
生态产品雷达

Karpathy autoresearch 仓库:还是引力中心——今天 4 篇以上的帖子都把它当灵感(xreviewer555、uripomerantz、omarsar0、handsomeblob)。

Claude Code:4 篇以上提及——m13v_ 谈 5 小时窗口、b04zy 谈 Pro 计划撤出、karimov_elshad 当 agent loop 教学样板、xreviewer555 当 Opus 4.6 评测对象。

Codex(GPT 5.4):2 次提及(xreviewer555 评测、leostera 接入)——未达阈值但在升温。

Kimi Code(K2.5):1 次(xreviewer555 三方对比)。

ChatGPT-image-2:1 次但带真实失败案例(UrbanAstroFella)。
← 上一篇
超级用户日报: 2026-04-23
下一篇 →
灵感雷达: 2026-04-23
← 返回所有文章

评论

加载中...
>_