2026年6月30日loop

Loop 日报: 2026年7月1日

搞 loop 的这帮人，今天已经不再争论 agent 能不能自己跑起来，而是开始晒结果了。最狠的一个根本不是写代码：一个 Cursor agent 接手了一个脑信号解码器，自己通宵跑实验，把词错误率砍了将近 20%，还顺手发明了人类没试过的技巧。喧嚣底下，一个清晰的共识正在成型。大家现在都承认 agent loop 本身没什么技术含量，整盘棋的胜负手已经挪到了那个验证器（verifier），以及喂给它的评测数据上。今天真正拿出结果的人，靠的不是更快的循环，而是一个他们敢信的裁判。

💡#1

@stalkermustang
https://x.com/stalkermustang/status/2071590526965502027
今天最硬的 autoresearch 案例。他指出，一个脑解码新结果里最值得看的不是模型，而是一个 Cursor agent 把整个研究循环自己跑完了：自己写代码、跑实验、读结果，把词错误率最多压低了 19.8%，干翻了 Optuna 这种传统超参搜索。这些 agent 不只是调旋钮，是独立重新发明了 modality dropout、beam search 解码这些真正的机器学习技巧。这是目前为止最干净的"氛围科学"证据。

💡#2

@wandb
https://x.com/wandb/status/2071603727585448025
完整演示了 CoreWeave ARIA，一个住在你 Weights and Biases 看板里的研究 agent。它读你已有的实验记录，判断什么有效，提出假设，然后通过 W&B Launch 自己发起下一批实验。Demo 里它跑在 Karpathy 的 nanochat 上（A100），并行起两个 ARIA，提配置、排真实训练任务、结果回来后评估 val loss。这是 autoresearch 被产品化了：看板不再是你去读的地方，而是会自己动手的东西。

💡#3

@mrstrijker
https://x.com/mrstrijker/status/2071740973516722604
低调但很实在的一个。在 20x 套餐上，token 不再是瓶颈，他把这份余量全砸进了一个改进气象模型的 autoresearch 项目。这是个好提醒：loop 这套打法不只属于训练大模型，任何有可编辑代码加可量化指标的东西都能进来，包括物理预报。

💡#4

@BowTiedDevil
https://x.com/BowTiedDevil/status/2071732599140290979
整个工作流就五句话：让 agent 把一个 Python 类改写成 Rust，打开 autoresearch 插件，然后去做杯浓缩、抱孩子玩飞高高。回到桌前，速度提升 30 倍。数字精不精确两说，但正在飞快扩散的就是这个心智模型：人定好目标和指标，然后真的人走开，循环自己磨。

💡#5

@neil_xbt
https://x.com/neil_xbt/status/2071507210014793912
深度介绍了一个开源"第二大脑"，建立在"Obsidian 是 IDE，LLM 是程序员，wiki 是代码库"这个想法上，现在 6800 star。丢进一个来源，Claude 就抽取出人物和观点，自动生成 8 到 15 个互相链接的页面。一个 /autoresearch 命令会跑三轮搜索、抓取、综合、归档，做自主网络调研。他强调的真正杀招：让你每一个 Claude Code 项目都指向同一个 vault，一个大脑服务所有项目。

💡#6

@humanscotti
https://x.com/humanscotti/status/2071625083853152750
与其让一个人的 autoresearch 孤独地爬一个 benchmark，他在做 Labless，让上百个贡献者实时一起爬同一个 benchmark，每次运行都可交互、可复现。所有有效的运行都自动提交，所以失败的实验和成功的一样可见，还有个 agent API 让你的编码 agent 先研究别人已经试过什么，省得白白浪费算力重复。它已经办了个 Nanopath 挑战：在单张 GPU 上一小时训出最好的病理模型。

💡#7

@PhilShteuck
https://x.com/PhilShteuck/status/2071556595033547035
真刀真枪跑本地模型做循环的笔记。在 Opengate 项目里他测了四个本地模型，只有 Qwen3-Coder-Next 能稳定产出能跑的软件。他的结论：清理 tool-call 泄漏帮助巨大；Codex 的重试循环很擅长在出岔子时恢复，但时间一长会污染上下文；最优组合是清理 tool 泄漏加上一个跑着强本地模型的 CodexCli harness。他正基于这套在做一个内存 autoresearch 项目。

💡#8

@Vtrivedy10
https://x.com/Vtrivedy10/status/2071638016095879232
一个很犀利的论点：规模化的 auto-research 意味着你的 harness 必须能在海量数据上调度、编排很多子 agent，而不只是排队调工具。他举的任务："读完全部 10 万条 trace 和实验日志，找出在保持准确率的前提下把 token 花销砍一半的办法。"要可靠地做到这点，agent 得能用程序化的方式生出别的 agent，他说这在 Deep Agents 里已经能用了，而难点在于事先想清楚怎么拆解、怎么验证。

💡#9

@StarHistoryHQ
https://x.com/StarHistoryHQ/status/2071641062964126000
一个值得追踪的信号：Auto-Research-In-Sleep，一个 12.8K star 的自主机器学习研究项目。它用纯 markdown 的 skill 跑跨模型评审循环，在你睡觉时发现想法、自动跑实验。"markdown skill"这个趋势反复出现，跟 Hermes 和 Obsidian-wiki 那批人正在收敛到的，就是同一种纯文本、模型无关的配方格式。

💡#10

@0xRicker
https://x.com/0xRicker/status/2071643962926899538
来自 Boris Cherny 和 Spotify 工作坊的硬数字：Spotify 每天上 4500 次生产部署，其 CTO 每天并行跑 5 到 10 个 Claude agent，73% 的 PR 现在由 AI 撰写，PR 频率涨了 75%，全都绑在 agent 工具上。他说这是 2900 名工程师工作方式的一次重构。技术栈还是那个反复出现的配方：agent loop 加 harness 加 memory 加子 agent。

💡#11

@CliffDoesAI
https://x.com/CliffDoesAI/status/2071659873943633963
对登上 Hacker News 的终端原生 agent OpenCode 的一次实战检验。他拿一个 400 多文件的真实客户项目跑：agent 大约 10 分钟摸清了架构，找出 12 处重复逻辑，重构了其中 8 处，把另外 4 处标成"需人工复核"，他说判断得对。他诚实的结论：还没到 Claude Code 的水准，但做样板代码够用，而且够危险，前提是你不复核。

💡#12

@0x_codex
https://x.com/0x_codex/status/2071672505434063012
一篇好文，讲为什么本地模型正在变成开发者的运行时，而不是玩具聊天框。在 MacBook M5 上用 llama.cpp 跑 8-bit 的 Qwen3.6-27B，配一个 OpenAI 兼容的本地端点，32 token/秒、约 42GB 内存。他认为正确的心智模型不是"本地胜过云"，而是路由：本地作为重复、私密、能容忍延迟工作的默认轨道，前沿云模型作为尖峰路径。这样 agent loop 就需要明确的闸门：上下文预算、质量检查、升级规则。

💡#13

@plutos_eth
https://x.com/plutos_eth/status/2071740644536500505
今天最接地气的循环。每次 push 触发一次自动评审，给代码打个五分制的分。低于四分，一个 agent 读评审、修、再 push，循环到拿满五分或试五次后放弃。它之所以成立，是因为反馈是二元的：代码过没过；而一旦任务需要创意，比如构建 app 本身，循环就崩了。循环在哪管用、在哪不管用，这条边界才是真正的教训。

💡#14

@EnterMirari
https://x.com/EnterMirari/status/2071501745688088952
直接针对自我改进循环的致命缺陷。如果你的裁判模型漂移了，agent 做的每一个"改进"都是假的。他们的 Reward Model Drift Detector 维护一份冻结的金标准判定集，定期重新打分；一旦裁判和这份金标准的一致性掉破阈值，整个自我反思循环就被标记并暂停。用他们的话说：只有镜子不变形，自我反思才管用。

💡#15

@String_The0rist
https://x.com/String_The0rist/status/2071733373656018984
他自己做的一个模型无关的治理层 intelli-arch，把 Claude、Codex 这类编码 agent 接进一个 spec→test→plan→code 的流水线。钩子强制执行这些闸门并跑漂移检查，让 agent 没法跳步或者悄悄跑偏。这和漂移检测器、maker-checker 循环是同一个直觉：模型提议，但由确定性的策略决定到底执行什么。

💡#16

@talirezun
https://x.com/talirezun/status/2071612910191726899
在生产里跑 Karpathy wiki 模式六个月，一个升级改变了一切：这个 wiki 带一个 MCP server，让每个 agent loop 在会话进行中就能读写同一张图，而不只是会话之间。摄取流水线按计划自动跑，你丢进一个来源，剩下交给 agent。这个环境不只是持久，它是活的、被所有正在跑的循环共享的。

💡#17

@Asimmmm06
https://x.com/Asimmmm06/status/2071615592088662026
一个干净的新手作品，值得展示是因为它完整。一天之内他攒出一个研究 agent：四个工具（Tavily 网络搜索、读文件、写文件、计算），一个带最大迭代上限的 agent loop，外加一个 done 工具让 agent 自己决定何时停。这就是最小可用循环，把它一条条写明白，比再来一张抽象架构图有用得多。

💡#18

@NevoSayNevo
https://x.com/NevoSayNevo/status/2071533002513957034
他点名 OpenMontage 是这批里最强的信号：把调研、脚本生成、画面合成、配乐、Remotion 渲染串进一个 agent loop，整套在本地用 Piper 和 FFmpeg 跑。本地跑省掉了惯常的 API 税和水印麻烦。一个清晰的非编码例子：一整条视频制作流水线被表达成了单个循环。

💡#19

@DeRonin_
https://x.com/DeRonin_/status/2071640167710908900
一张真正有用的、分三个级别构建自我改进 agent 的地图。一级是一个周末就能上线的手动循环：50 到 100 个测试用例，用 LLM 当裁判给输出打分，失败喂回去改写 prompt，循环到留下赢家，工具用 Promptfoo 或 Braintrust。二级是 DSPy 自动编译 prompt。三级是 ADAS 这种自动 agent 设计，让 agent 本身成为搜索空间。他的建议：从一级起步，自己跑一个周末的循环，胜过再读五篇论文。

💡#20

@tom_doerr
https://x.com/tom_doerr/status/2071400242545586319
一个逆向工程出来的 Claude Code 架构，从一个最小 agent loop 搭起，已开源。它正好是今天满天飞的那句"循环简单到尴尬，就是跑工具、把结果喂回去"的代码版配套，只不过这里是你能读的真代码，而不是又一条让你删掉脚手架的推文。

💡#21

@AI_Nate_SA
https://x.com/AI_Nate_SA/status/2071610635625119949
对"唯快论"的一记有用反拨。他在 18 个项目里跑过自我改进循环，结论很直白：解锁的不是速度，是验证器，因为一个给自己打分的 agent 永远说自己过了。这就是今天反复出现的主题，一句话讲透，也解释了为什么这堆帖子一半其实在讲评测，而不是循环。

💡#22

@morganiful
https://x.com/morganiful/status/2071640512516223126
从数据一侧讲同一个道理：自我改进 agent 真正的瓶颈不是循环，是评测数据。如果你的裁判只查语法错误，第一天就到天花板了。他说团队花在搭确定性沙盒来验证工作上的时间，远多于 agent 逻辑本身，而这恰恰是价值所在。

📡 生态产品雷达

Eco Products Radar

今天 loop 讨论里出现三次及以上的工具和框架。

AutoResearch (Karpathy) — 几乎每篇帖子都在它之上搭建的参考范式，从气象模型到 nanochat。
Cursor — 脑解码 autoresearch 结果背后的那个 agent，还有好几例。
W&B ARIA (CoreWeave) — 能从你看板里发起真实训练任务的 autoresearch agent。
Deep Agents (LangChain) — 面向规模化 auto-research 的子 agent 调度 harness。
Hermes (Nous Research) — 反复冒头的那个 markdown-skill、自我改进的本地 agent。
DSPy — 被点名为自我改进 agent 二级路径的自动 prompt 编译框架。
Codex — 在多个循环搭配里和本地模型、治理层成对出现。

← 上一篇

超级用户日报: 2026年7月1日

灵感雷达: 2026年7月1日

← 返回所有文章

加载中...

Loop 日报: 2026年7月1日

相关文章

评论