2026年6月24日loop

Loop 日报: 2026年6月25日

今天 autoresearch 从“给方法调参”毕业，迈进了真正的发现——一套人机系统找出了新的 SOTA 晶体结构算法，而不只是打磨旧方法。关于循环的讨论分成了两个都很诚实的阵营：信徒在交付真系统——Brex 自动提 bug、由另一个 agent 通宵修好，一个编码 agent 连跑 60 小时，公开的 Fast Gemma 挑战赛让几十个 agent 去啃人类没解决的问题；现实派则在划边界，比如那个 agentic loop 把 Gemini 的 kernel 分数提了一截、却在 20 步后平台期，因为反馈能修语法、修不了架构。最清晰的实践主线是：一个循环的上限取决于它那个可量化验证的数值目标和它的硬停止条件，而成本藏在你重新调用模型的次数里，不在模型有多聪明。

💡#1

@rldudrldbs2
https://x.com/rldudrldbs2/status/2069429961275080953
一个团队做了套人机协同发现系统 HACO，发现了一个新的晶体结构预测 SOTA 算法 MaskGXT。他们划的关键区别是：像 Karpathy 的 autoresearch 那类 agent 研究系统主要是在打磨一个固定方法，而 HACO 直接奔着找一条全新的生成原理去。这是今天最有说服力的信号之一——autoresearch 循环能产出真正新颖的科学，而不只是给现有方法调参。

💡#2

@cyrilXBT
https://x.com/cyrilXBT/status/2069367416325603598
Google 和 Hugging Face 搞了个 Fast Gemma 挑战赛：几十个自主 agent 在固定的 A10G 上比赛优化 Gemma 4 E4B 的推理速度，有实时榜单，按 tokens/秒打分，还设了 perplexity 护栏，谁也别想靠偷偷把模型搞烂来赢。这些 agent 通过共享留言板协调，各自认领一个研究方向（vLLM、量化、torch.compile、投机解码、自定义 kernel），结果实时公布。这是把 autoresearch 变成一场公开的、多 agent 的竞赛，攻的还是人类自己都没完全解决的问题。

💡#3

@VukRosic99
https://x.com/VukRosic99/status/2069368710356467725
一位 DeepSeek 研究员开源了自己的自主研究系统，这篇拆解讲了它的设计，以及为什么它能泛化到 AI 研究之外的任何 agent 项目（写代码、金融等）。核心洞见是点名了拖垮长跑 agent 的三种失败模式——认知死循环、卡住停滞、运行时脆弱——并给出各自的修法，其中主编排器给每个任务都新开一个全新 agent，因为全新会话比续上一堆积累的上下文更靠谱。整套东西用一句 prompt 就能装进你自己的 agent。

💡#4

@SynScience
https://x.com/SynScience/status/2069495691278528957
一个团队在做 Atlas，让“复现”不再是个项目：给它一个 arXiv id，reproduce skill 就把结果重建成一张只保留真正能跑的部分的图，然后向你索要 PDF 里漏掉的东西，而不是瞎猜。这张图成了你可以让 autoresearch 接手的起点——挑任意节点、把实验往前推、为某个指标优化、往作者排除掉的方向探，你的运行结果又汇进同一张图供别人 fork。一个很具体的愿景：把 autoresearch 变成一张共享的、会分叉的实验图，而不是各自孤立地追论文。

💡#5

@GabrielAsher02
https://x.com/GabrielAsher02/status/2069252214879560114
科学家对 LLM 的三大抱怨——幻觉、结果平庸、人在环里的循环太磨叽——在这里不是靠更聪明的模型解决，而是靠给它套个循环：起草、对着评分表批判、对照文献核验、再修。具体演示很有说服力：同一个画图需求，裸的 Claude 会把 y 轴截断、编出一堆看着合理的准确率；走科学绘图循环后，两步自我批判就把轴修好、调文献检索工具把每个数字从原论文里抠出来、再渲出一张干净的色盲友好图。这只是开源 agent-loop-skills 仓库里 20 多个即插即用循环之一，还有 autoresearch、数据分析、科学写作、red-teaming 等。

💡#6

@nasqret
https://x.com/nasqret/status/2069446813040439691
一位研究者说自己终于在仿真里突破了 900 量子比特的前沿，归功于势头越来越足的 auto-research。他对“auto 循环为什么能成”的总结是：关键在于你一开始怎么设计脚手架，然后轻轻地引导它——把策略和那些小提示、小指令搭好，但仍然让 agent 自己去探索问题。一个具体成果，配上一段诚实的自述：人的角色是设计者和轻推者，而不是事无巨细的微管理者。

💡#7

@confinedape
https://x.com/confinedape/status/2069372089295925441
在一段聊交易自动化的串里，有人讲他让一个便宜的 agent（类似 GPT-5.4 Nano）跑一个仿照 Karpathy autoresearch 的闭环修正循环：每当告警触发，agent 就拿着滚动的市场指标，按你给定的标准和策略给每个机会打分。这是个不大但很具体的例子，把 autoresearch 循环从 AI 研究搬进了实时的金融信号评级，他还老实补了句虽然当时挺满意但现在已经不用了。

💡#8

@JanKoritak
https://x.com/JanKoritak/status/2069494658246316378
2025 年底做一个多轮语音 agent 时，这位开发者要评三件事——工具调用的正确顺序、工具是否带着正确参数被调用、以及每一轮的意图——又找不到趁手的方案，于是糊了个原型，靠它解锁了 Karpathy 的 autoresearch 循环，针对给定场景去微调语音 agent 的行为。半年后他的感慨是：agent 评估和可观测性成熟得很快，Karpathy 的 autoresearch 方法论现在在前沿 harness 里几乎是一等公民般的支持了。

💡#9

@noobkunalx
https://x.com/noobkunalx/status/2069468306013368701
一位编码 agent 重度用户讲他怎么意识到：通过这些“外层循环”对 agent harness 做的小改进会复利累积——灵感来自 Hermes 和 Karpathy 的 autoresearch 这类东西。他给所有泡在编码 agent 里的人的简单招数是：给你的 agent 接上 tracing，然后跑一个外层循环去扫一段时间内的会话轨迹，借此改进 harness 本身。他就给自己的外层循环搭了这么一套，是个把“自我改进”落到自己每天 agent 用量上的扎实例子。

💡#10

@Vtrivedy10
https://x.com/Vtrivedy10/status/2069453528234447123
一位 LangChain 工程师主张 autoresearch 式的提案循环必须数据驱动：只有当数据、评估和反馈能提供一个有用的梯度让你爬坡时，它们才最管用；而且 autoresearch 正越来越成为通用 agent 优化的好工具。他摆出 LangChain 生态怎么支撑这类自我改进循环——deepagents 或 create_agent 里可定制的 harness、支持任意模型供应商、自带工具/提示/技能，再加上 OpenEvals 和 LangSmith 里的评估工具——并指出今天就开始能让你更早摸到自己具体用例需要什么样的数据。

💡#11

@togethercompute
https://x.com/togethercompute/status/2069515320466059549
一个关于 agentic loop 边界的具体数据点：一个 agentic loop（编译、测试、profile、修订）帮 Gemini 3 Pro 在一道 GPU kernel 任务上从 87 题里答对 24 提到 35，然后在大约 20 步后就平台期了。诚实的发现是：循环的反馈能修语法，却修不了更深的问题——rank 协调、集合排序、传输机制的选择——而 TMA、NVLS 这类硬件特性几乎一直没被用上。对“编译-测试-修订循环能啃下什么、啃不下什么”是个有用的现实检验。

💡#12

@sandy4kad
https://x.com/sandy4kad/status/2069557165753504174
一篇把 loop engineering 讲清楚、给热度去魅的四阶段拆解。第一阶段触发（定时、丢文件、API 调用）；第二阶段执行，绑到一个 skill 文件上，保证每次都一模一样地跑；第三阶段目标加验证——唯一要紧的一阶段，也是大多数人翻车的地方，因为他们挑的是主观目标（“这篇帖子好不好？”）而不是数值目标（“让这脚本跑得更快”）；第四阶段输出加记忆，把每次运行和每次变化都记下来，循环就能自己变好，正是 Karpathy autoresearch 背后的原理。结论是：搭循环前唯一值得问的，就是这个目标能不能用一个数字来验证。

💡#13

@rewind02
https://x.com/rewind02/status/2069464178671170046
Sierra 的产品负责人拆解了他们怎么把整个语音 agent 循环从头重建——这不是个聊天机器人，它在给财富 20 强公司跑着数百万次真实客户对话。具体细节包括：实时并行处理“思考、聆听、说话”；并行跑两个转写模型，让沉默来决定该信哪一个；以及一个自我改进循环——发现问题、提出修法、人来批准、再循环。他最尖锐的提醒是：多 agent 循环通常是在毁价值，而不是在创造价值。

💡#14

@sarvamcode
https://x.com/sarvamcode/status/2069406115809656959
sarvam-code 是用 sarvam-code 自己建的：agent 读自己的 repo、查实时网络、提交让下一版更好的补丁。v0.1.10 加了网页搜索，其中相当一部分是工具自己写的——从 MVP 到递归自我改进的编码 agent，大约一周。他们也承认 Codex 和 Claude Code 用户早就有网页搜索了，他们引以为傲的是这个循环：工具成了自己最好的贡献者，每次发版都更锋利。一个干净、具体的“自我改进编码 agent 自食其狗粮”的实例。

💡#15

@DJ_CURFEW
https://x.com/DJ_CURFEW/status/2069499429292568919
一位创始人说他们的“100x 组织”现在正逼近 5:1 的 agent 对人比例——1000 个人配 5000 个 agent——并坚称这是省 token 而不是堆 token，因为绝大多数 agent 根本不打扰任何人，就在后台当触发器和循环跑着。夸张之下有干货：他们的优势不是更多 token、也不是更好的模型，而是一层“活情报”——公司每天约 10 万条事件，每一条都过一个便宜的 LLM 做总结、归类、触发、上卷，再加上一套自我改进的编排，重点是编排上下文而不是编排模型。一个组织规模级的后台自我改进循环的真实记述。

💡#16

@plutos_eth
https://x.com/plutos_eth/status/2069545539973369952
Brex 的 CEO Pedro Franceschi 说得很直白：你用过的每个好 AI 产品，本质都只是一个带工具的 agent loop。在 Brex，当某个客户跟报销 agent 的对话出岔子时，它会自动提一个 bug——而这个 bug 又触发另一个 agent 去改写代码和提示，直到这个 case 过关为止，只有它实在搞不定时人才介入。他们说目标是：一个通宵盯着一切、到早上就重新学完的系统，一家会自我 debug 的公司。这是自我改进循环这套主张里，来自真实公司的最清晰表态之一。

💡#17

@predotdev
https://x.com/predotdev/status/2069517791087018310
一个团队解释了为什么没有长期执行图，持续运行的 agent loop 就只是在淌血烧 token，以及他们怎么让一个编码 agent 连续跑了 60 小时。他们的答案是：把它当成管一支人类工程团队——一上来就把计划拆成 user story、里程碑和验收标准，这样 harness 就能动态配置隔离的云沙箱、把每个子任务路由到合适的模型档位。再加上递归式的记忆压缩，在不打断循环的前提下实时压缩交互历史，让 agent 在一个连续会话里扛住几万条消息。

💡#18

@shivsakhuja
https://x.com/shivsakhuja/status/2069251255189520478
一位创始人讲了他给视频广告做的两套闭环系统。循环一，视频质量：agent 每做一条视频，就把视频看一遍、从操作者怎么提示它学一手、给自己打分、更新自己的技能——于是下次它自己就能抓到字幕跟人脸打架、配音和画面对不上、或者手表前面戴着后面又没了这类毛病，不用操作者再标。循环二，广告表现：它从 Meta Ads 数据里学哪些钩子能让人停下划动、哪些报价能拿到点击、哪些风格能转化，然后多做有效的。一个具体的、非写代码的自我改进循环，而且反馈信号越快，循环越强。

💡#19

@deshrajdry
https://x.com/deshrajdry/status/2069466865588711846
Mem0 给 Pi Code 发了个插件，让这个终端编码 agent 拥有跨会话、跨项目、有作用域的语义记忆。它往编码循环里加了三样东西：记忆作用域（默认项目级、带 git 根检测以适配 monorepo，外加会话级和全局级）、记忆控制命令（/mem0-remember、/mem0-search、/mem0-dream、/mem0-pin、/mem0-status），以及一个 agent 工具，让 Pi 在干活时能自己搜、加、改、删记忆。它明确的目标是把记忆做成终端 agent 循环本身的一部分，而不是另开一个面板或上下文文件。

💡#20

@0xine
https://x.com/0xine/status/2069483519907426774
一位在做 Semgrep Guardian 的安全工程师点出一个很尖的观点：待在 agent 循环里，对安全来说是个不公平的优势。去年他以为 AI 生成的代码会跟人写的代码一样被扫描；后来他意识到，你可以直接让 agent 换用更安全的库——比如 Python 里的 defusedxml——它会乐呵呵地在代码落地之前就改好。而在 CI 的 code review 阶段做同样的事，对开发者意味着多得多的上下文切换和工作量。一个具体的论证：循环里才是该强制安全的地方，而不是循环之后那道闸。

💡#21

@synestiq
https://x.com/synestiq/status/2069394315164398074
一份有数字撑腰、关于怎么便宜地跑 agent 循环的细致回答。建议是：触发器就用一个简单的 while-true 消费队列，然后尽量把排队的事件合并进一个 prompt、把工具调用批处理——因为如果你的上下文是 10 万 token，你分 10 次调用，每次都得带上这同样的 10 万，就算每次只新增 1k，你也得为大约一百万个缓存输入 token 买单。按他的经验，prompt cache 占了大头成本（一个实算例子总共 $516.86，其中 $311 是缓存），所以减少模型调用次数往往比缩小每次的新输入更重要。

💡#22

@sunaiuse
https://x.com/sunaiuse/status/2069564603407987008
一位开发者做了个 Claude 循环，把视频脚本反复改写，直到在全部 9 项标准上都拿到 9/10 才停，全程没有人在环里，跑到产出符合“完成定义”为止。这篇帖子借它把架构讲成三层——LLM 本身、带工具的 app 层、以及你给它技能、记忆、上下文和一个明确目标后放手让它跑的 agent 层——并强调了那个关键细节：每个循环都得有一个硬停止条件，否则它会永远跑下去、把 token 烧光。再往上是 OpenClaw、Hermes 这类盯着长周期目标常开的 agent，以及编排多个 agent 的元循环。

📡 生态产品雷达

生态产品雷达

autoresearch (Karpathy) — 人人拿来对标自己实现的那个参照循环
agent-loop-skills — 开源仓库，20 多个即插即用的 agentic 循环（autoresearch、绘图、red-teaming）
LangChain / deepagents — 跑数据驱动自我改进循环的 harness 和评估工具
Mem0 — 直接接进编码 agent 循环的、有作用域的持久记忆
Hermes / OpenClaw — 大家在上面叠长周期循环的常开运行时
Codex / Claude Code — 现在对循环有一等支持的默认编码 harness

← 上一篇

超级用户日报: 2026年6月25日

灵感雷达: 2026年6月25日

← 返回所有文章

加载中...

Loop 日报: 2026年6月25日

相关文章

评论