2026年6月9日loop

Loop 日报: 2026-06-09

如果说昨天是 agent 在写代码，今天就是 agent 在做科研。每一篇好帖底下都串着同一句话：别再手把手指挥模型，给它一个指标和一笔预算，让它在自己身上跑实验，直到那个数字变好。一个开源引擎悄无声息地在中文法律基准上赢过了一个 1200 亿参数的模型，而它找到的最优解里压根没有 LLM。一个研究蛋白质的 agent 连续四轮被喂更难的问题，数据涨了 10 倍而代码几乎没变。还有一批新的自我改进 skill 系统，正在把每一次会话都变成下一次的训练数据。下面是大家真正跑起来的东西。

💡#1

@TheGodfath13541
https://x.com/TheGodfath13541/status/2063586909977207110
今天最干净的 autoresearch 结果：开源引擎 evo 接到 LawBench（中国刑法，191 个可能罪名），没有任何指令，只给了一个系统、一个'更好'的定义和一笔预算。一家拿了大钱的创业公司训了个 1200 亿参数模型，得分 0.701；evo 跑出来 0.7766。最妙的是 evo 先试了昂贵的路（在 1200 亿模型上多次 LoRA），发现收益不够，就把它剪掉了，最后交付的最优解里完全没有 LLM——一个精简的经典分类器，笔记本就能跑。奥卡姆剃刀不是事先假设、而是被搜索搜出来的，每一个实验全程公开。

💡#2

@alokbishoyi97
https://x.com/alokbishoyi97/status/2063579673704144973
evo 突破了 1000 个 GitHub star，作者把目标讲得很直白：把 evo 做成在你已有的任何代码库上跑 autoresearch 的最简单、最好的方式。这个定位很重要——这是面向任何'有一个仓库、有一个想改善的指标'的人的 autoresearch，而不是只给前沿实验室用的。它被采用得很快（加上 LawBench 的实锤），说明'对准你自己的代码'这个卖点是打中了的。

💡#3

@AutoSOTA11
https://x.com/AutoSOTA11/status/2063626072453976184
一次很具体的 autoresearch 优化，跑在一篇刚出的 CVPR 论文（ChordEdit）之上。用 AutoSOTA，他们往两个正交方向推进：算法侧是 cleanup blending 加 prompt 相似度自动调参；系统侧是 TF32 Tensor Core、FlashAttention-2 和 inference_mode。结果：PSNR 从 23.02 升到 25.11（+9.1%），延迟降 32.4% 到每张 0.25 秒，画质基本不掉。这是一个干净的演示——agent 能拿一个刚发表的方法，立刻把它再榨出一截。

💡#4

@HeyZohaib
https://x.com/HeyZohaib/status/2063758198658695182
一套值得抄的三层自我改进研究 agent 架构：第一层更新代码库、MCP 和服务；第二层是一个研究编排器，用面向 QA 的 skill 规则去派生 agent、给它们解阻塞；第三层做真正的研究，并通过自建 MCP 把结果推出去。这些 skill 是成批自我改进的，但他刻意在'不显而易见的行为变更'上保留人类把关，免得 skill 库退化成一堆边角情况的垃圾场。

💡#5

@omarsar0
https://x.com/omarsar0/status/2063668567447597273
一篇很犀利的论文总结，讲的是自我改进到底该优化什么。它区分了检索、搜索和发现，并用范畴论去检验一个 agent 是不是真的产出了新概念。他们那个研究蛋白质力学的 Builder/Breaker agent，连续四轮挑战更难的蛋白质，数据涨了约 10 倍，而模型代码只涨了 1.3 倍。观点是：把更多世界压缩进更少的代码，是比单看准确率更好的成功信号——因为只优化准确率，只会让 agent 停在简单基准上不动了。

💡#6

@rohanpaul_ai
https://x.com/rohanpaul_ai/status/2063698758517366884
一个泼冷水的基准：Meta-Agent Challenge（MAC）测的是 AI agent 能否在数学、科学、竞赛编程、修 bug 和终端任务上，自主地造出更好的 AI agent。结论挺清醒的——现在的 agent 通常打不过人精心搭的 agent 配置，少数好结果都来自 Claude 这类前沿模型。在一片热炒里值得记住的结论是：agent 是强大的执行者，但还不是会自我改进的工程师。

💡#7

@Trace_Cohen
https://x.com/Trace_Cohen/status/2063435099392114879
一个小但闭得很漂亮的循环：一个自我改进的 SEO/AEO agent，每次'提示改进器'运行都会读上一次的 improvements.md，于是它没法重复同样的修改，被逼着去找新信号。它已经跑了两次、做了七处有针对性的改进，全部对应到 Google Search Console 的数字上，下一步是去验证一个 FAQ Page schema 的改动是否真的提升了 CTR，从而确认或修正假设。这是把 autoresearch 用在营销上——有真实指标，也记得自己已经试过什么。

💡#8

@yungbose
https://x.com/yungbose/status/2063648136267202910
分享了 upskill，一个基于文件的递归自我改进 agent skill 系统，灵感来自微软的 SkillOpt 论文和 Garry Tan 的 gstack。它读每一次运行、做一次复盘，再以 git 原生的方式把改进折回 markdown 文件里——包括改进那个元 skill 本身。它会自动加载上下文，存储并演化提示词和工作流，能作为 skill 跑在任何 agent harness 里，包括 Codex。核心就是把自我改进做成可重复、低心智负担的事，而不是一次性的。

💡#9

@gauthampai
https://x.com/gauthampai/status/2063579656712823155
一套很深的技术工作流：一个 prompt 到 DAG 的规划器加执行器，把一个提示转成声明式的计划，包含确定性阶段（完全跳过 LLM）和随机性阶段（用 LLM），全部带类型并持久化，所以重启也不丢。你可以像调试器一样单步走各阶段、重跑、或者临时改写计划，它还能处理 fan-out、fan-in、循环到完成、审批门。他把它用在 Karpathy 的 autoresearch 项目上，只是把 agent 指向 program.md，它第一次就生成了整个计划。

💡#10

@ViceSol
https://x.com/ViceSol/status/2063576473416405147
一段对某人 JARVIS 流水线的拆解，它把凌晨三点的一个念头过夜变成一个上线的项目。六个阶段，只有一个需要人：捕捉一条原始笔记，分类（项目/任务/想法/参考），五路分流，然后自动调研（WebSearch x4、WebFetch x2，记录发现和来源），停在唯一一个人类审批门，最后执行——一个 PM agent 在不同模型上派生出调研/构建/测试/部署/评审的 worker，还内置防回音室。整件事在他睡觉时跑完；诀窍是想法和执行之间那一层，它不等你。

💡#11

@DimitrisPapail
https://x.com/DimitrisPapail/status/2063646403562213532
一个重度用户的功能请求，同时也是一份使用报告：他大量用 Codex 做 autoresearch，但说模型在最后一公里很差——讲清楚最终方案是怎么得来的。他想要一个配套的写作模型，把整条实验轨迹拢成一个连贯的叙事。这是个真实的缺口：当 agent 跑了几百个实验，人还是需要搞懂赢家为什么会赢。

💡#12

@cv_usk
https://x.com/cv_usk/status/2063771991404933140
一份关于自主 agent 循环的详细模式文档，核心是预算。搭一个 ReAct 式的'观察-思考-行动'循环，带三个预算维度——步数、token 成本、墙钟时间——在完成、预算耗尽或卡死检测时终止，且由代码强制执行而不是听 LLM 自报。几个关键动作：把剩余预算注入系统提示，让模型在快用完时决定收尾；耗尽时绝不返回空（给一个部分结果兜底）；压缩历史来对抗上下文膨胀。正是这些不光鲜的工程，让长循环变得安全。

💡#13

@SolJuvan
https://x.com/SolJuvan/status/2063753798711931109
一个自我改进的'AI 大脑'：一个自主的 Hermes agent 24/7 跑在 VPS 上，通过 Filesystem MCP 永久接进个人的 Obsidian 仓库。它推理之前先从仓库拉上下文；它产出的每个东西又被写回成新笔记。这个闭环意味着用得越多它就越聪明、越个性化，而永久记忆就活在一堆纯文本文件里。这是'一个持续学习你的个人模型'的廉价又耐用的版本。

💡#14

@nateberkopec
https://x.com/nateberkopec/status/2063731591650979971
一个把'循环'到底是什么讲清楚的观点：别再守着模型当保姆，去做一个非交互式的 AI 应用。循环可以简单（ralph、autoresearch），也可以复杂，但任务永远是同一个——'做那个会做东西的东西'。这是对'为什么 agentic loop 重要'最干净的一句话概括：目标不是更好的聊天，而是把你自己彻底从内层循环里拿掉。

📡 生态产品雷达

生态产品雷达

今天 loop 相关帖子里被提到三次及以上的工具和项目。

evo (evo-hq) - LawBench 结果背后的开源 autoresearch 引擎；对准一个代码库和一个指标就能跑。
upskill - 基于文件的递归自我改进 skill 系统，git 原生，不挑 harness。
Hermes - 大家让它 24/7 跑着、做自我改进和带记忆循环的 agent 运行时。
Codex - autoresearch 运行的首选执行器，常和 autoresearch 编排器配对。
Obsidian + MCP - 自我改进 agent 的持久记忆底座。
AutoSOTA - 用来在刚发表的论文上再榨出收益的 agentic 框架。
LangGraph - 搭建有状态、能自我纠错的 agent 循环的常用选择。

← 上一篇

超级用户日报: 2026-06-09

灵感雷达: 2026-06-09

← 返回所有文章

加载中...

Loop 日报: 2026-06-09

相关文章

评论