2026年6月12日loop

Loop 日报: 2026-06-12

如果说昨天是把 Fable 怼到你最难的任务上，今天讨论往上挪了一层：不是任务，而是跑任务的那个循环。时间线上被引用最多的一句话是——别再给 agent 发 prompt 了，去设计那个给它们发 prompt 的循环——而真正在做的人已经不谈哲学，开始交付 verifier 了。这里最硬的几个案例都在用不同方式回答同一个问题：这个循环拿什么来检验自己干的活。一个威胁检测 agent 用置信度给自己打分，一个客服 agent 用一个自己不断磨锋利的 benchmark，一个安全操作系统用一套它无权改动的测试。另一条绕不开的线索是成本。循环每一轮都重发整段历史，所以聪明的循环和失控账单之间的差别，就是那道验证闸门和迭代上限。

💡#1

@HackingDave
https://x.com/HackingDave/status/2064821193006252256
这是今天最硬的生产级自我改进循环，而且不是 demo。Binary Defense 跑着一个叫 Scout Forge 的 agent，它审查每一条客户提交、每一个日志源和告警，反复问同一个问题：我们能不能更好——更好的训练数据、更好的归一化、新的检测标准。当一个它从没见过的技术源进来，它会自动去研究它、生成合成训练数据、随时间搭出新的解析器。最能说明问题的数字是：一个新的 PLC 源从 13% 置信度起步，18 分钟内到 73%，当天结束时到 100%。一套自愈、自我改进的威胁检测，自己悄悄越变越好。

💡#2

@OpenCovenant
https://x.com/OpenCovenant/status/2064636027340222838
Covenant 是一个 agent 原生的操作系统，一个自主循环全天候写、测、发自己的代码，每一个 commit 都公开，而这周它从「构建」跨进了「改进」。他们把它指向自己的一个核心组件——验证防篡改审计日志的那个引擎——让它重写自己运行的代码。八轮之后效率提升了 4 倍，比他们手工做的还好，过程中它自学了向量化、还正确地重写了底层密码学。诚实的部分是那道护栏：它没法作弊，每次重写都必须对一套它无权改动的测试产出完全一致的结果，否则自动被拒。递归自我改进只有在黑箱里才吓人，而这里整个重点就是可验证。

💡#3

@AshwinSreenivas
https://x.com/AshwinSreenivas/status/2064759689381109774
Decagon 推出了 Duet Autopilot，一个面向客户体验的自我改进 agent，并且聪明地为这个说法建了个 benchmark 来背书，而不是空口宣称。DuetBench 给会随时间学习的客服 agent 打分，在 90 个诊断调查上从结果和方法两方面把 Autopilot 和持证的人类 agent 构建者做对比。最突出的是它的行为：不是一遍过解决，而是跑模拟、找到断掉的分支、修复底层工具、重复直到工作流通过。头条结果是那个自我批评循环——它改进了自己测试集的质量，在 520 次运行里把模拟准确率从 58% 提到 88%。随着这类系统铺开，经过验证的评测开始和模型本身的能力一样重要。

💡#4

@shannholmberg
https://x.com/shannholmberg/status/2064700139235844220
时间线上关于循环最清晰的一段方法论，讲为什么编码循环和营销循环造得不一样。编码循环有一个硬信号可以怼：测试过、构建过、benchmark 变好、bug 没了，绿了就完事。营销什么都没有——一个烂落地页照样加载、一篇平庸帖子照样发布，环境里没有任何东西拦它。所以营销循环需要先有判断力再要自主权，需要一些像测试一样的闸门，去检验编译器永远查不了的东西：真实性、证据、具体性、口吻、差异化、品味，外加一个「啥也别做，原版更好」的选项。他那句话很锋利：编码循环停在「测试通过」，营销循环应该停在「这值得一个人来拍板」。大多数 AI 营销 agent 照抄了编码循环的动作却没有那层验证，于是它们产出更多、更快、品味更差。

💡#5

@DeRonin_
https://x.com/DeRonin_/status/2064784790940008645
一个真带自评步骤的具体营销循环。他测了 Higgsfield MCP，粘一个产品 URL 进去，换回一整套创意——视频、广告、一个落地页——直接落到他的目录里，没有单独的 UI，也不用在另一个标签页里做 prompt 工程。流程是把 Higgsfield 接到 Claude、Cursor、Perplexity 或 Hermes 上，然后 agent 规划活动、生成素材、给自己的输出打分、迭代、发布。整条创意栈在一个 agent 循环里。这正是营销循环方法论要求的那个模式——agent 做动作，一道验证步骤决定什么够好可以发。

💡#6

@WeixianXu
https://x.com/WeixianXu/status/2064529448213565831
一个值得标记的新 autoresearch 框架：EEVEE，号称是第一个面向自我改进 LLM agent 的多数据集测试时 prompt 学习框架。这个定位很关键——它不是单 benchmark 的 prompt 优化故事，而是为应对真实 agent 在野外遇到的那种又乱又变的任务混合而造的。报出来的数字是：随任务增加累计提升 +42、在 Qwen3-4B-Instruct 上相对增益 +25%、在 DeepSeek-V3.2 上相对 +61%。这是所有「自我改进 agent」说法底下的学术那一面——一个真正的方法，让 agent 在部署之后还能在异构的真实工作负载上持续变好。

💡#7

@EnoReyes
https://x.com/EnoReyes/status/2064766716794872066
一个干净的三行前沿 AI 研究配方，同时也是 autoresearch 在实践中的一个定义：用支持开放研究的模型、在桌面 App 里跑一个 mission、目标是搭出你在意的那一段流水线组件，然后在整个过程中盯着这些 agent，时长从两小时到两周不等。他把它叫做「auto research 的 GUI」。有意思的是那个时间跨度——这不是一次性的 prompt，而是一次有人监督的长跑，人的角色是看一个过程在几天里展开，而不是去敲下一步。

💡#8

@kevintpayne
https://x.com/kevintpayne/status/2064608499359691126
一个 agent 无人监督跑好几个小时、边跑边自我改进的可用例子，用的是 Hyperagent 上的 Fable 5。两个测试案例最能说明问题：一个用 NASA 数据搭出来的小行星可视化，一个从 PDF 里重建出来的阿波罗控制面板。他把这些定性为不是 demo，而是那种只有当 agent 能做视觉推理、能在长跑里自我纠偏才撑得住的复杂多步工作。他点出的那个跃迁正是整个品类的关键——从「让 agent 做一个任务」，到「给它一个目标、让它一直迭代到完成」。

💡#9

@getsmallai
https://x.com/getsmallai/status/2064543242876850340
一个实践者发布了 Small Harness 0.7.0，是他第一个用 Fable 做出来的版本，定位是 agent 循环的可观测性版本。两块东西要紧：一个 flight recorder，给每个 session 落一个 events JSONL 边车文件，记下工具调用、审批、压缩和计时，还能实时看嵌套子 agent 和 critic 的活动；以及一个 eval CLI，把一个打包任务端到端跑完并以 0/1 退出，外加一组集成测试，能对一个 mock SSE 服务器驱动真实的 agent 循环、不需要真 LLM。这是整场循环讨论依赖的那些不起眼的管道——你没法设计一个你既追踪不了也测试不了的循环——而他把它开源了。

💡#10

@victorialslocum
https://x.com/victorialslocum/status/2064617082600272142
当下关于 agent runtime 乱局最有用的一张地图，按「到底差在哪」拆解了 OpenClaw、Hermes、Odysseus 和 n8n。最要紧的维度是持久化记忆和自我改进：大多数工具是基于 session 的，关掉窗口就全忘，她称这是当前 AI 系统最大的瓶颈之一。Hermes 就是为解决这个而造的，跨 session 保留记忆、从经验里写自己的 skill 文件；OpenClaw 通过你自己配置的插件实现持久记忆；在她手里 Hermes 在自我改进循环上明显更强，虽然两者都还有空间。OpenClaw 和 Hermes 正在收敛成自主、本地优先、持久的 runtime，而 Odysseus 是个 UI 层、n8n 是个低代码自动化平台，完全是另外两个品类。

💡#11

@jimboot
https://x.com/jimboot/status/2064620466371957019
今天关于一个 agentic 循环最具体的 token 经济拆解，把整个 Loop 和超级用户的讨论串到了一起。他追踪了一个 session：大约 30 次工具调用（爬网页、户型图截图、写文件、QA 截图），每次都重发整段对话，context 涨到 13 万 token 以上，光 claude-api 的 skill 文档就约 7 万，所有请求累计输入大概 150 到 200 万 token。缓存救了场——Claude Code 缓存很激进，所以大部分是缓存读取，按 1 美元/百万而不是 10 美元/百万计费，最后落在 5 到 6 美元，而不是不缓存要烧的 18 到 20 美元。隐蔽成本是截图，每张图在缓存前每次请求都被重读一遍。这正是这周每一个失控账单恐怖故事背后的那笔账。

💡#12

@lividprowess
https://x.com/lividprowess/status/2064581324133007802
一个 22 岁的生物技术本科生跳过了学样板语法，用一个多 agent 循环搭出了一个 1.1 万行的 PyTorch 框架，模拟生物物理神经元群、STDP 和脑机接口解码器。这是条小帖子但很真实——计算神经科学正是 agent 循环模式真正值钱的那种非软件领域，一个有领域知识但没有编码训练量的人，用一个循环产出了一个严肃的研究产物。这和超级用户那边黑客松故事里出现的「领域知识压过语法」是同一个转向，只不过对准的是神经元而不是落地页。

💡#13

@DavidShulmanFL
https://x.com/DavidShulmanFL/status/2064843547698721026
一个对 Karpathy autoresearch 模式干净的个人化应用：一个无人值守的 LLM 循环，配一个设定目标的 program 文件，跑到一定深度，把输出直接归档进一个知识库。妙处在于输入——它编译的不是网络，而是他自己的对话，他持有的立场、做过的决定、项目、人、概念。这是把 autoresearch 的想法对准了内部，用同一套「无人循环加 program 文件」的结构，不是去发现新科学，而是去构建一份结构化、自维护的、关于一个人思考的记忆。

💡#14

@spenserskates
https://x.com/spenserskates/status/2064759773292368141
Amplitude 的 CEO 推出了 Wave，一个主动型产品 agent，跑的是完整的「构建—发布—使用—学习」循环，而不只是构建那一半。论点很锋利：AI 让构建和发布快到离谱，但理解用量和学习仍然靠手工。Wave 跨分析、反馈、会话回放、错误日志、agent 轨迹和实验结果去分析 Amplitude 数据，把机会以完整产品 spec 的形式浮出来、让你或你的 agent 批准并发布，然后追踪结果让循环重新开始。这是个产品发布，但它是对「补上循环里学习那一半」的一次真诚尝试——而大多数 agent 配置都把那一半丢给了人。

💡#15

@victor_zhng
https://x.com/victor_zhng/status/2064812227228823817
一套紧凑、实用的方法论，关于怎么搭一个公司金融的 agent 循环，来自一个真在做金融的人。假设你已经有了 harness（prompt 指令、上下文管理、检索、agent 循环、访问控制、工具调用），方法是：把流程拆成检索、财务建模、输出生成，把你想评判的能力拆开——检索准确率、计算准确率、推理、判断决策，据此设计 eval，然后跑、找问题、调 harness、再测。这是把「eval 驱动的 harness 调优」纪律应用到一个高风险的非编码领域，也是循环工程那帮人比划的一切的、不那么花哨的现实版本。

📡 生态产品雷达

生态产品雷达

Fable（11 次）是这一轮所有人都在往自己循环里接的模型。Hermes（8）和 OpenClaw（3）仍是自我改进讨论围绕的两个持久、本地优先的 agent runtime，Cursor（5）和 Claude Code（5）是编码 harness。MCP（6）是工具型循环的连接层。EEVEE（4）作为今天的学术自我改进 agent 框架冒了出来，DeepSeek（3）反复出现，既是 benchmark 目标，也是省钱派循环构建者用的便宜模型。

← 上一篇

超级用户日报: 2026-06-12

灵感雷达: 2026-06-12

← 返回所有文章

加载中...

Loop 日报: 2026-06-12

相关文章

评论