2026年6月30日loop

Loop 日报: 2026年7月1日

搞 loop 的这帮人,今天已经不再争论 agent 能不能自己跑起来,而是开始晒结果了。最狠的一个根本不是写代码:一个 Cursor agent 接手了一个脑信号解码器,自己通宵跑实验,把词错误率砍了将近 20%,还顺手发明了人类没试过的技巧。喧嚣底下,一个清晰的共识正在成型。大家现在都承认 agent loop 本身没什么技术含量,整盘棋的胜负手已经挪到了那个验证器(verifier),以及喂给它的评测数据上。今天真正拿出结果的人,靠的不是更快的循环,而是一个他们敢信的裁判。
💡#1
@stalkermustang
https://x.com/stalkermustang/status/2071590526965502027
今天最硬的 autoresearch 案例。他指出,一个脑解码新结果里最值得看的不是模型,而是一个 Cursor agent 把整个研究循环自己跑完了:自己写代码、跑实验、读结果,把词错误率最多压低了 19.8%,干翻了 Optuna 这种传统超参搜索。这些 agent 不只是调旋钮,是独立重新发明了 modality dropout、beam search 解码这些真正的机器学习技巧。这是目前为止最干净的"氛围科学"证据。
💡#2
@wandb
https://x.com/wandb/status/2071603727585448025
完整演示了 CoreWeave ARIA,一个住在你 Weights and Biases 看板里的研究 agent。它读你已有的实验记录,判断什么有效,提出假设,然后通过 W&B Launch 自己发起下一批实验。Demo 里它跑在 Karpathy 的 nanochat 上(A100),并行起两个 ARIA,提配置、排真实训练任务、结果回来后评估 val loss。这是 autoresearch 被产品化了:看板不再是你去读的地方,而是会自己动手的东西。
💡#3
@mrstrijker
https://x.com/mrstrijker/status/2071740973516722604
低调但很实在的一个。在 20x 套餐上,token 不再是瓶颈,他把这份余量全砸进了一个改进气象模型的 autoresearch 项目。这是个好提醒:loop 这套打法不只属于训练大模型,任何有可编辑代码加可量化指标的东西都能进来,包括物理预报。
💡#4
@BowTiedDevil
https://x.com/BowTiedDevil/status/2071732599140290979
整个工作流就五句话:让 agent 把一个 Python 类改写成 Rust,打开 autoresearch 插件,然后去做杯浓缩、抱孩子玩飞高高。回到桌前,速度提升 30 倍。数字精不精确两说,但正在飞快扩散的就是这个心智模型:人定好目标和指标,然后真的人走开,循环自己磨。
💡#5
@neil_xbt
https://x.com/neil_xbt/status/2071507210014793912
深度介绍了一个开源"第二大脑",建立在"Obsidian 是 IDE,LLM 是程序员,wiki 是代码库"这个想法上,现在 6800 star。丢进一个来源,Claude 就抽取出人物和观点,自动生成 8 到 15 个互相链接的页面。一个 /autoresearch 命令会跑三轮搜索、抓取、综合、归档,做自主网络调研。他强调的真正杀招:让你每一个 Claude Code 项目都指向同一个 vault,一个大脑服务所有项目。
💡#6
@humanscotti
https://x.com/humanscotti/status/2071625083853152750
与其让一个人的 autoresearch 孤独地爬一个 benchmark,他在做 Labless,让上百个贡献者实时一起爬同一个 benchmark,每次运行都可交互、可复现。所有有效的运行都自动提交,所以失败的实验和成功的一样可见,还有个 agent API 让你的编码 agent 先研究别人已经试过什么,省得白白浪费算力重复。它已经办了个 Nanopath 挑战:在单张 GPU 上一小时训出最好的病理模型。
💡#7
@PhilShteuck
https://x.com/PhilShteuck/status/2071556595033547035
真刀真枪跑本地模型做循环的笔记。在 Opengate 项目里他测了四个本地模型,只有 Qwen3-Coder-Next 能稳定产出能跑的软件。他的结论:清理 tool-call 泄漏帮助巨大;Codex 的重试循环很擅长在出岔子时恢复,但时间一长会污染上下文;最优组合是清理 tool 泄漏加上一个跑着强本地模型的 CodexCli harness。他正基于这套在做一个内存 autoresearch 项目。
💡#8
@Vtrivedy10
https://x.com/Vtrivedy10/status/2071638016095879232
一个很犀利的论点:规模化的 auto-research 意味着你的 harness 必须能在海量数据上调度、编排很多子 agent,而不只是排队调工具。他举的任务:"读完全部 10 万条 trace 和实验日志,找出在保持准确率的前提下把 token 花销砍一半的办法。"要可靠地做到这点,agent 得能用程序化的方式生出别的 agent,他说这在 Deep Agents 里已经能用了,而难点在于事先想清楚怎么拆解、怎么验证。
💡#9
@StarHistoryHQ
https://x.com/StarHistoryHQ/status/2071641062964126000
一个值得追踪的信号:Auto-Research-In-Sleep,一个 12.8K star 的自主机器学习研究项目。它用纯 markdown 的 skill 跑跨模型评审循环,在你睡觉时发现想法、自动跑实验。"markdown skill"这个趋势反复出现,跟 Hermes 和 Obsidian-wiki 那批人正在收敛到的,就是同一种纯文本、模型无关的配方格式。
💡#10
@0xRicker
https://x.com/0xRicker/status/2071643962926899538
来自 Boris Cherny 和 Spotify 工作坊的硬数字:Spotify 每天上 4500 次生产部署,其 CTO 每天并行跑 5 到 10 个 Claude agent,73% 的 PR 现在由 AI 撰写,PR 频率涨了 75%,全都绑在 agent 工具上。他说这是 2900 名工程师工作方式的一次重构。技术栈还是那个反复出现的配方:agent loop 加 harness 加 memory 加子 agent。
💡#11
@CliffDoesAI
https://x.com/CliffDoesAI/status/2071659873943633963
对登上 Hacker News 的终端原生 agent OpenCode 的一次实战检验。他拿一个 400 多文件的真实客户项目跑:agent 大约 10 分钟摸清了架构,找出 12 处重复逻辑,重构了其中 8 处,把另外 4 处标成"需人工复核",他说判断得对。他诚实的结论:还没到 Claude Code 的水准,但做样板代码够用,而且够危险,前提是你不复核。
💡#12
@0x_codex
https://x.com/0x_codex/status/2071672505434063012
一篇好文,讲为什么本地模型正在变成开发者的运行时,而不是玩具聊天框。在 MacBook M5 上用 llama.cpp 跑 8-bit 的 Qwen3.6-27B,配一个 OpenAI 兼容的本地端点,32 token/秒、约 42GB 内存。他认为正确的心智模型不是"本地胜过云",而是路由:本地作为重复、私密、能容忍延迟工作的默认轨道,前沿云模型作为尖峰路径。这样 agent loop 就需要明确的闸门:上下文预算、质量检查、升级规则。
💡#13
@plutos_eth
https://x.com/plutos_eth/status/2071740644536500505
今天最接地气的循环。每次 push 触发一次自动评审,给代码打个五分制的分。低于四分,一个 agent 读评审、修、再 push,循环到拿满五分或试五次后放弃。它之所以成立,是因为反馈是二元的:代码过没过;而一旦任务需要创意,比如构建 app 本身,循环就崩了。循环在哪管用、在哪不管用,这条边界才是真正的教训。
💡#14
@EnterMirari
https://x.com/EnterMirari/status/2071501745688088952
直接针对自我改进循环的致命缺陷。如果你的裁判模型漂移了,agent 做的每一个"改进"都是假的。他们的 Reward Model Drift Detector 维护一份冻结的金标准判定集,定期重新打分;一旦裁判和这份金标准的一致性掉破阈值,整个自我反思循环就被标记并暂停。用他们的话说:只有镜子不变形,自我反思才管用。
💡#15
@String_The0rist
https://x.com/String_The0rist/status/2071733373656018984
他自己做的一个模型无关的治理层 intelli-arch,把 Claude、Codex 这类编码 agent 接进一个 spec→test→plan→code 的流水线。钩子强制执行这些闸门并跑漂移检查,让 agent 没法跳步或者悄悄跑偏。这和漂移检测器、maker-checker 循环是同一个直觉:模型提议,但由确定性的策略决定到底执行什么。
💡#16
@talirezun
https://x.com/talirezun/status/2071612910191726899
在生产里跑 Karpathy wiki 模式六个月,一个升级改变了一切:这个 wiki 带一个 MCP server,让每个 agent loop 在会话进行中就能读写同一张图,而不只是会话之间。摄取流水线按计划自动跑,你丢进一个来源,剩下交给 agent。这个环境不只是持久,它是活的、被所有正在跑的循环共享的。
💡#17
@Asimmmm06
https://x.com/Asimmmm06/status/2071615592088662026
一个干净的新手作品,值得展示是因为它完整。一天之内他攒出一个研究 agent:四个工具(Tavily 网络搜索、读文件、写文件、计算),一个带最大迭代上限的 agent loop,外加一个 done 工具让 agent 自己决定何时停。这就是最小可用循环,把它一条条写明白,比再来一张抽象架构图有用得多。
💡#18
@NevoSayNevo
https://x.com/NevoSayNevo/status/2071533002513957034
他点名 OpenMontage 是这批里最强的信号:把调研、脚本生成、画面合成、配乐、Remotion 渲染串进一个 agent loop,整套在本地用 Piper 和 FFmpeg 跑。本地跑省掉了惯常的 API 税和水印麻烦。一个清晰的非编码例子:一整条视频制作流水线被表达成了单个循环。
💡#19
@DeRonin_
https://x.com/DeRonin_/status/2071640167710908900
一张真正有用的、分三个级别构建自我改进 agent 的地图。一级是一个周末就能上线的手动循环:50 到 100 个测试用例,用 LLM 当裁判给输出打分,失败喂回去改写 prompt,循环到留下赢家,工具用 Promptfoo 或 Braintrust。二级是 DSPy 自动编译 prompt。三级是 ADAS 这种自动 agent 设计,让 agent 本身成为搜索空间。他的建议:从一级起步,自己跑一个周末的循环,胜过再读五篇论文。
💡#20
@tom_doerr
https://x.com/tom_doerr/status/2071400242545586319
一个逆向工程出来的 Claude Code 架构,从一个最小 agent loop 搭起,已开源。它正好是今天满天飞的那句"循环简单到尴尬,就是跑工具、把结果喂回去"的代码版配套,只不过这里是你能读的真代码,而不是又一条让你删掉脚手架的推文。
💡#21
@AI_Nate_SA
https://x.com/AI_Nate_SA/status/2071610635625119949
对"唯快论"的一记有用反拨。他在 18 个项目里跑过自我改进循环,结论很直白:解锁的不是速度,是验证器,因为一个给自己打分的 agent 永远说自己过了。这就是今天反复出现的主题,一句话讲透,也解释了为什么这堆帖子一半其实在讲评测,而不是循环。
💡#22
@morganiful
https://x.com/morganiful/status/2071640512516223126
从数据一侧讲同一个道理:自我改进 agent 真正的瓶颈不是循环,是评测数据。如果你的裁判只查语法错误,第一天就到天花板了。他说团队花在搭确定性沙盒来验证工作上的时间,远多于 agent 逻辑本身,而这恰恰是价值所在。
📡 生态产品雷达
Eco Products Radar

今天 loop 讨论里出现三次及以上的工具和框架。

AutoResearch (Karpathy) — 几乎每篇帖子都在它之上搭建的参考范式,从气象模型到 nanochat。
Cursor — 脑解码 autoresearch 结果背后的那个 agent,还有好几例。
W&B ARIA (CoreWeave) — 能从你看板里发起真实训练任务的 autoresearch agent。
Deep Agents (LangChain) — 面向规模化 auto-research 的子 agent 调度 harness。
Hermes (Nous Research) — 反复冒头的那个 markdown-skill、自我改进的本地 agent。
DSPy — 被点名为自我改进 agent 二级路径的自动 prompt 编译框架。
Codex — 在多个循环搭配里和本地模型、治理层成对出现。
← 上一篇
超级用户日报: 2026年7月1日
下一篇 →
灵感雷达: 2026年7月1日
← 返回所有文章

评论

加载中...
>_