2026年6月8日loop

Loop 日报: 2026-06-09

如果说昨天是 agent 在写代码,今天就是 agent 在做科研。每一篇好帖底下都串着同一句话:别再手把手指挥模型,给它一个指标和一笔预算,让它在自己身上跑实验,直到那个数字变好。一个开源引擎悄无声息地在中文法律基准上赢过了一个 1200 亿参数的模型,而它找到的最优解里压根没有 LLM。一个研究蛋白质的 agent 连续四轮被喂更难的问题,数据涨了 10 倍而代码几乎没变。还有一批新的自我改进 skill 系统,正在把每一次会话都变成下一次的训练数据。下面是大家真正跑起来的东西。
💡#1
@TheGodfath13541
https://x.com/TheGodfath13541/status/2063586909977207110
今天最干净的 autoresearch 结果:开源引擎 evo 接到 LawBench(中国刑法,191 个可能罪名),没有任何指令,只给了一个系统、一个'更好'的定义和一笔预算。一家拿了大钱的创业公司训了个 1200 亿参数模型,得分 0.701;evo 跑出来 0.7766。最妙的是 evo 先试了昂贵的路(在 1200 亿模型上多次 LoRA),发现收益不够,就把它剪掉了,最后交付的最优解里完全没有 LLM——一个精简的经典分类器,笔记本就能跑。奥卡姆剃刀不是事先假设、而是被搜索搜出来的,每一个实验全程公开。
💡#2
@alokbishoyi97
https://x.com/alokbishoyi97/status/2063579673704144973
evo 突破了 1000 个 GitHub star,作者把目标讲得很直白:把 evo 做成在你已有的任何代码库上跑 autoresearch 的最简单、最好的方式。这个定位很重要——这是面向任何'有一个仓库、有一个想改善的指标'的人的 autoresearch,而不是只给前沿实验室用的。它被采用得很快(加上 LawBench 的实锤),说明'对准你自己的代码'这个卖点是打中了的。
💡#3
@AutoSOTA11
https://x.com/AutoSOTA11/status/2063626072453976184
一次很具体的 autoresearch 优化,跑在一篇刚出的 CVPR 论文(ChordEdit)之上。用 AutoSOTA,他们往两个正交方向推进:算法侧是 cleanup blending 加 prompt 相似度自动调参;系统侧是 TF32 Tensor Core、FlashAttention-2 和 inference_mode。结果:PSNR 从 23.02 升到 25.11(+9.1%),延迟降 32.4% 到每张 0.25 秒,画质基本不掉。这是一个干净的演示——agent 能拿一个刚发表的方法,立刻把它再榨出一截。
💡#4
@HeyZohaib
https://x.com/HeyZohaib/status/2063758198658695182
一套值得抄的三层自我改进研究 agent 架构:第一层更新代码库、MCP 和服务;第二层是一个研究编排器,用面向 QA 的 skill 规则去派生 agent、给它们解阻塞;第三层做真正的研究,并通过自建 MCP 把结果推出去。这些 skill 是成批自我改进的,但他刻意在'不显而易见的行为变更'上保留人类把关,免得 skill 库退化成一堆边角情况的垃圾场。
💡#5
@omarsar0
https://x.com/omarsar0/status/2063668567447597273
一篇很犀利的论文总结,讲的是自我改进到底该优化什么。它区分了检索、搜索和发现,并用范畴论去检验一个 agent 是不是真的产出了新概念。他们那个研究蛋白质力学的 Builder/Breaker agent,连续四轮挑战更难的蛋白质,数据涨了约 10 倍,而模型代码只涨了 1.3 倍。观点是:把更多世界压缩进更少的代码,是比单看准确率更好的成功信号——因为只优化准确率,只会让 agent 停在简单基准上不动了。
💡#6
@rohanpaul_ai
https://x.com/rohanpaul_ai/status/2063698758517366884
一个泼冷水的基准:Meta-Agent Challenge(MAC)测的是 AI agent 能否在数学、科学、竞赛编程、修 bug 和终端任务上,自主地造出更好的 AI agent。结论挺清醒的——现在的 agent 通常打不过人精心搭的 agent 配置,少数好结果都来自 Claude 这类前沿模型。在一片热炒里值得记住的结论是:agent 是强大的执行者,但还不是会自我改进的工程师。
💡#7
@Trace_Cohen
https://x.com/Trace_Cohen/status/2063435099392114879
一个小但闭得很漂亮的循环:一个自我改进的 SEO/AEO agent,每次'提示改进器'运行都会读上一次的 improvements.md,于是它没法重复同样的修改,被逼着去找新信号。它已经跑了两次、做了七处有针对性的改进,全部对应到 Google Search Console 的数字上,下一步是去验证一个 FAQ Page schema 的改动是否真的提升了 CTR,从而确认或修正假设。这是把 autoresearch 用在营销上——有真实指标,也记得自己已经试过什么。
💡#8
@yungbose
https://x.com/yungbose/status/2063648136267202910
分享了 upskill,一个基于文件的递归自我改进 agent skill 系统,灵感来自微软的 SkillOpt 论文和 Garry Tan 的 gstack。它读每一次运行、做一次复盘,再以 git 原生的方式把改进折回 markdown 文件里——包括改进那个元 skill 本身。它会自动加载上下文,存储并演化提示词和工作流,能作为 skill 跑在任何 agent harness 里,包括 Codex。核心就是把自我改进做成可重复、低心智负担的事,而不是一次性的。
💡#9
@gauthampai
https://x.com/gauthampai/status/2063579656712823155
一套很深的技术工作流:一个 prompt 到 DAG 的规划器加执行器,把一个提示转成声明式的计划,包含确定性阶段(完全跳过 LLM)和随机性阶段(用 LLM),全部带类型并持久化,所以重启也不丢。你可以像调试器一样单步走各阶段、重跑、或者临时改写计划,它还能处理 fan-out、fan-in、循环到完成、审批门。他把它用在 Karpathy 的 autoresearch 项目上,只是把 agent 指向 program.md,它第一次就生成了整个计划。
💡#10
@ViceSol
https://x.com/ViceSol/status/2063576473416405147
一段对某人 JARVIS 流水线的拆解,它把凌晨三点的一个念头过夜变成一个上线的项目。六个阶段,只有一个需要人:捕捉一条原始笔记,分类(项目/任务/想法/参考),五路分流,然后自动调研(WebSearch x4、WebFetch x2,记录发现和来源),停在唯一一个人类审批门,最后执行——一个 PM agent 在不同模型上派生出调研/构建/测试/部署/评审的 worker,还内置防回音室。整件事在他睡觉时跑完;诀窍是想法和执行之间那一层,它不等你。
💡#11
@DimitrisPapail
https://x.com/DimitrisPapail/status/2063646403562213532
一个重度用户的功能请求,同时也是一份使用报告:他大量用 Codex 做 autoresearch,但说模型在最后一公里很差——讲清楚最终方案是怎么得来的。他想要一个配套的写作模型,把整条实验轨迹拢成一个连贯的叙事。这是个真实的缺口:当 agent 跑了几百个实验,人还是需要搞懂赢家为什么会赢。
💡#12
@cv_usk
https://x.com/cv_usk/status/2063771991404933140
一份关于自主 agent 循环的详细模式文档,核心是预算。搭一个 ReAct 式的'观察-思考-行动'循环,带三个预算维度——步数、token 成本、墙钟时间——在完成、预算耗尽或卡死检测时终止,且由代码强制执行而不是听 LLM 自报。几个关键动作:把剩余预算注入系统提示,让模型在快用完时决定收尾;耗尽时绝不返回空(给一个部分结果兜底);压缩历史来对抗上下文膨胀。正是这些不光鲜的工程,让长循环变得安全。
💡#13
@SolJuvan
https://x.com/SolJuvan/status/2063753798711931109
一个自我改进的'AI 大脑':一个自主的 Hermes agent 24/7 跑在 VPS 上,通过 Filesystem MCP 永久接进个人的 Obsidian 仓库。它推理之前先从仓库拉上下文;它产出的每个东西又被写回成新笔记。这个闭环意味着用得越多它就越聪明、越个性化,而永久记忆就活在一堆纯文本文件里。这是'一个持续学习你的个人模型'的廉价又耐用的版本。
💡#14
@nateberkopec
https://x.com/nateberkopec/status/2063731591650979971
一个把'循环'到底是什么讲清楚的观点:别再守着模型当保姆,去做一个非交互式的 AI 应用。循环可以简单(ralph、autoresearch),也可以复杂,但任务永远是同一个——'做那个会做东西的东西'。这是对'为什么 agentic loop 重要'最干净的一句话概括:目标不是更好的聊天,而是把你自己彻底从内层循环里拿掉。
📡 生态产品雷达
生态产品雷达

今天 loop 相关帖子里被提到三次及以上的工具和项目。

evo (evo-hq) - LawBench 结果背后的开源 autoresearch 引擎;对准一个代码库和一个指标就能跑。
upskill - 基于文件的递归自我改进 skill 系统,git 原生,不挑 harness。
Hermes - 大家让它 24/7 跑着、做自我改进和带记忆循环的 agent 运行时。
Codex - autoresearch 运行的首选执行器,常和 autoresearch 编排器配对。
Obsidian + MCP - 自我改进 agent 的持久记忆底座。
AutoSOTA - 用来在刚发表的论文上再榨出收益的 agentic 框架。
LangGraph - 搭建有状态、能自我纠错的 agent 循环的常用选择。
← 上一篇
超级用户日报: 2026-06-09
下一篇 →
灵感雷达: 2026-06-09
← 返回所有文章

评论

加载中...
>_