Loop 日报: 2026-06-12
如果说昨天是把 Fable 怼到你最难的任务上,今天讨论往上挪了一层:不是任务,而是跑任务的那个循环。时间线上被引用最多的一句话是——别再给 agent 发 prompt 了,去设计那个给它们发 prompt 的循环——而真正在做的人已经不谈哲学,开始交付 verifier 了。这里最硬的几个案例都在用不同方式回答同一个问题:这个循环拿什么来检验自己干的活。一个威胁检测 agent 用置信度给自己打分,一个客服 agent 用一个自己不断磨锋利的 benchmark,一个安全操作系统用一套它无权改动的测试。另一条绕不开的线索是成本。循环每一轮都重发整段历史,所以聪明的循环和失控账单之间的差别,就是那道验证闸门和迭代上限。
#1
@HackingDave
https://x.com/HackingDave/status/2064821193006252256
这是今天最硬的生产级自我改进循环,而且不是 demo。Binary Defense 跑着一个叫 Scout Forge 的 agent,它审查每一条客户提交、每一个日志源和告警,反复问同一个问题:我们能不能更好——更好的训练数据、更好的归一化、新的检测标准。当一个它从没见过的技术源进来,它会自动去研究它、生成合成训练数据、随时间搭出新的解析器。最能说明问题的数字是:一个新的 PLC 源从 13% 置信度起步,18 分钟内到 73%,当天结束时到 100%。一套自愈、自我改进的威胁检测,自己悄悄越变越好。
https://x.com/HackingDave/status/2064821193006252256
这是今天最硬的生产级自我改进循环,而且不是 demo。Binary Defense 跑着一个叫 Scout Forge 的 agent,它审查每一条客户提交、每一个日志源和告警,反复问同一个问题:我们能不能更好——更好的训练数据、更好的归一化、新的检测标准。当一个它从没见过的技术源进来,它会自动去研究它、生成合成训练数据、随时间搭出新的解析器。最能说明问题的数字是:一个新的 PLC 源从 13% 置信度起步,18 分钟内到 73%,当天结束时到 100%。一套自愈、自我改进的威胁检测,自己悄悄越变越好。
#2
@OpenCovenant
https://x.com/OpenCovenant/status/2064636027340222838
Covenant 是一个 agent 原生的操作系统,一个自主循环全天候写、测、发自己的代码,每一个 commit 都公开,而这周它从「构建」跨进了「改进」。他们把它指向自己的一个核心组件——验证防篡改审计日志的那个引擎——让它重写自己运行的代码。八轮之后效率提升了 4 倍,比他们手工做的还好,过程中它自学了向量化、还正确地重写了底层密码学。诚实的部分是那道护栏:它没法作弊,每次重写都必须对一套它无权改动的测试产出完全一致的结果,否则自动被拒。递归自我改进只有在黑箱里才吓人,而这里整个重点就是可验证。
https://x.com/OpenCovenant/status/2064636027340222838
Covenant 是一个 agent 原生的操作系统,一个自主循环全天候写、测、发自己的代码,每一个 commit 都公开,而这周它从「构建」跨进了「改进」。他们把它指向自己的一个核心组件——验证防篡改审计日志的那个引擎——让它重写自己运行的代码。八轮之后效率提升了 4 倍,比他们手工做的还好,过程中它自学了向量化、还正确地重写了底层密码学。诚实的部分是那道护栏:它没法作弊,每次重写都必须对一套它无权改动的测试产出完全一致的结果,否则自动被拒。递归自我改进只有在黑箱里才吓人,而这里整个重点就是可验证。
#3
@AshwinSreenivas
https://x.com/AshwinSreenivas/status/2064759689381109774
Decagon 推出了 Duet Autopilot,一个面向客户体验的自我改进 agent,并且聪明地为这个说法建了个 benchmark 来背书,而不是空口宣称。DuetBench 给会随时间学习的客服 agent 打分,在 90 个诊断调查上从结果和方法两方面把 Autopilot 和持证的人类 agent 构建者做对比。最突出的是它的行为:不是一遍过解决,而是跑模拟、找到断掉的分支、修复底层工具、重复直到工作流通过。头条结果是那个自我批评循环——它改进了自己测试集的质量,在 520 次运行里把模拟准确率从 58% 提到 88%。随着这类系统铺开,经过验证的评测开始和模型本身的能力一样重要。
https://x.com/AshwinSreenivas/status/2064759689381109774
Decagon 推出了 Duet Autopilot,一个面向客户体验的自我改进 agent,并且聪明地为这个说法建了个 benchmark 来背书,而不是空口宣称。DuetBench 给会随时间学习的客服 agent 打分,在 90 个诊断调查上从结果和方法两方面把 Autopilot 和持证的人类 agent 构建者做对比。最突出的是它的行为:不是一遍过解决,而是跑模拟、找到断掉的分支、修复底层工具、重复直到工作流通过。头条结果是那个自我批评循环——它改进了自己测试集的质量,在 520 次运行里把模拟准确率从 58% 提到 88%。随着这类系统铺开,经过验证的评测开始和模型本身的能力一样重要。
#4
@shannholmberg
https://x.com/shannholmberg/status/2064700139235844220
时间线上关于循环最清晰的一段方法论,讲为什么编码循环和营销循环造得不一样。编码循环有一个硬信号可以怼:测试过、构建过、benchmark 变好、bug 没了,绿了就完事。营销什么都没有——一个烂落地页照样加载、一篇平庸帖子照样发布,环境里没有任何东西拦它。所以营销循环需要先有判断力再要自主权,需要一些像测试一样的闸门,去检验编译器永远查不了的东西:真实性、证据、具体性、口吻、差异化、品味,外加一个「啥也别做,原版更好」的选项。他那句话很锋利:编码循环停在「测试通过」,营销循环应该停在「这值得一个人来拍板」。大多数 AI 营销 agent 照抄了编码循环的动作却没有那层验证,于是它们产出更多、更快、品味更差。
https://x.com/shannholmberg/status/2064700139235844220
时间线上关于循环最清晰的一段方法论,讲为什么编码循环和营销循环造得不一样。编码循环有一个硬信号可以怼:测试过、构建过、benchmark 变好、bug 没了,绿了就完事。营销什么都没有——一个烂落地页照样加载、一篇平庸帖子照样发布,环境里没有任何东西拦它。所以营销循环需要先有判断力再要自主权,需要一些像测试一样的闸门,去检验编译器永远查不了的东西:真实性、证据、具体性、口吻、差异化、品味,外加一个「啥也别做,原版更好」的选项。他那句话很锋利:编码循环停在「测试通过」,营销循环应该停在「这值得一个人来拍板」。大多数 AI 营销 agent 照抄了编码循环的动作却没有那层验证,于是它们产出更多、更快、品味更差。
#5
@DeRonin_
https://x.com/DeRonin_/status/2064784790940008645
一个真带自评步骤的具体营销循环。他测了 Higgsfield MCP,粘一个产品 URL 进去,换回一整套创意——视频、广告、一个落地页——直接落到他的目录里,没有单独的 UI,也不用在另一个标签页里做 prompt 工程。流程是把 Higgsfield 接到 Claude、Cursor、Perplexity 或 Hermes 上,然后 agent 规划活动、生成素材、给自己的输出打分、迭代、发布。整条创意栈在一个 agent 循环里。这正是营销循环方法论要求的那个模式——agent 做动作,一道验证步骤决定什么够好可以发。
https://x.com/DeRonin_/status/2064784790940008645
一个真带自评步骤的具体营销循环。他测了 Higgsfield MCP,粘一个产品 URL 进去,换回一整套创意——视频、广告、一个落地页——直接落到他的目录里,没有单独的 UI,也不用在另一个标签页里做 prompt 工程。流程是把 Higgsfield 接到 Claude、Cursor、Perplexity 或 Hermes 上,然后 agent 规划活动、生成素材、给自己的输出打分、迭代、发布。整条创意栈在一个 agent 循环里。这正是营销循环方法论要求的那个模式——agent 做动作,一道验证步骤决定什么够好可以发。
#6
@WeixianXu
https://x.com/WeixianXu/status/2064529448213565831
一个值得标记的新 autoresearch 框架:EEVEE,号称是第一个面向自我改进 LLM agent 的多数据集测试时 prompt 学习框架。这个定位很关键——它不是单 benchmark 的 prompt 优化故事,而是为应对真实 agent 在野外遇到的那种又乱又变的任务混合而造的。报出来的数字是:随任务增加累计提升 +42、在 Qwen3-4B-Instruct 上相对增益 +25%、在 DeepSeek-V3.2 上相对 +61%。这是所有「自我改进 agent」说法底下的学术那一面——一个真正的方法,让 agent 在部署之后还能在异构的真实工作负载上持续变好。
https://x.com/WeixianXu/status/2064529448213565831
一个值得标记的新 autoresearch 框架:EEVEE,号称是第一个面向自我改进 LLM agent 的多数据集测试时 prompt 学习框架。这个定位很关键——它不是单 benchmark 的 prompt 优化故事,而是为应对真实 agent 在野外遇到的那种又乱又变的任务混合而造的。报出来的数字是:随任务增加累计提升 +42、在 Qwen3-4B-Instruct 上相对增益 +25%、在 DeepSeek-V3.2 上相对 +61%。这是所有「自我改进 agent」说法底下的学术那一面——一个真正的方法,让 agent 在部署之后还能在异构的真实工作负载上持续变好。
#7
@EnoReyes
https://x.com/EnoReyes/status/2064766716794872066
一个干净的三行前沿 AI 研究配方,同时也是 autoresearch 在实践中的一个定义:用支持开放研究的模型、在桌面 App 里跑一个 mission、目标是搭出你在意的那一段流水线组件,然后在整个过程中盯着这些 agent,时长从两小时到两周不等。他把它叫做「auto research 的 GUI」。有意思的是那个时间跨度——这不是一次性的 prompt,而是一次有人监督的长跑,人的角色是看一个过程在几天里展开,而不是去敲下一步。
https://x.com/EnoReyes/status/2064766716794872066
一个干净的三行前沿 AI 研究配方,同时也是 autoresearch 在实践中的一个定义:用支持开放研究的模型、在桌面 App 里跑一个 mission、目标是搭出你在意的那一段流水线组件,然后在整个过程中盯着这些 agent,时长从两小时到两周不等。他把它叫做「auto research 的 GUI」。有意思的是那个时间跨度——这不是一次性的 prompt,而是一次有人监督的长跑,人的角色是看一个过程在几天里展开,而不是去敲下一步。
#8
@kevintpayne
https://x.com/kevintpayne/status/2064608499359691126
一个 agent 无人监督跑好几个小时、边跑边自我改进的可用例子,用的是 Hyperagent 上的 Fable 5。两个测试案例最能说明问题:一个用 NASA 数据搭出来的小行星可视化,一个从 PDF 里重建出来的阿波罗控制面板。他把这些定性为不是 demo,而是那种只有当 agent 能做视觉推理、能在长跑里自我纠偏才撑得住的复杂多步工作。他点出的那个跃迁正是整个品类的关键——从「让 agent 做一个任务」,到「给它一个目标、让它一直迭代到完成」。
https://x.com/kevintpayne/status/2064608499359691126
一个 agent 无人监督跑好几个小时、边跑边自我改进的可用例子,用的是 Hyperagent 上的 Fable 5。两个测试案例最能说明问题:一个用 NASA 数据搭出来的小行星可视化,一个从 PDF 里重建出来的阿波罗控制面板。他把这些定性为不是 demo,而是那种只有当 agent 能做视觉推理、能在长跑里自我纠偏才撑得住的复杂多步工作。他点出的那个跃迁正是整个品类的关键——从「让 agent 做一个任务」,到「给它一个目标、让它一直迭代到完成」。
#9
@getsmallai
https://x.com/getsmallai/status/2064543242876850340
一个实践者发布了 Small Harness 0.7.0,是他第一个用 Fable 做出来的版本,定位是 agent 循环的可观测性版本。两块东西要紧:一个 flight recorder,给每个 session 落一个 events JSONL 边车文件,记下工具调用、审批、压缩和计时,还能实时看嵌套子 agent 和 critic 的活动;以及一个 eval CLI,把一个打包任务端到端跑完并以 0/1 退出,外加一组集成测试,能对一个 mock SSE 服务器驱动真实的 agent 循环、不需要真 LLM。这是整场循环讨论依赖的那些不起眼的管道——你没法设计一个你既追踪不了也测试不了的循环——而他把它开源了。
https://x.com/getsmallai/status/2064543242876850340
一个实践者发布了 Small Harness 0.7.0,是他第一个用 Fable 做出来的版本,定位是 agent 循环的可观测性版本。两块东西要紧:一个 flight recorder,给每个 session 落一个 events JSONL 边车文件,记下工具调用、审批、压缩和计时,还能实时看嵌套子 agent 和 critic 的活动;以及一个 eval CLI,把一个打包任务端到端跑完并以 0/1 退出,外加一组集成测试,能对一个 mock SSE 服务器驱动真实的 agent 循环、不需要真 LLM。这是整场循环讨论依赖的那些不起眼的管道——你没法设计一个你既追踪不了也测试不了的循环——而他把它开源了。
#10
@victorialslocum
https://x.com/victorialslocum/status/2064617082600272142
当下关于 agent runtime 乱局最有用的一张地图,按「到底差在哪」拆解了 OpenClaw、Hermes、Odysseus 和 n8n。最要紧的维度是持久化记忆和自我改进:大多数工具是基于 session 的,关掉窗口就全忘,她称这是当前 AI 系统最大的瓶颈之一。Hermes 就是为解决这个而造的,跨 session 保留记忆、从经验里写自己的 skill 文件;OpenClaw 通过你自己配置的插件实现持久记忆;在她手里 Hermes 在自我改进循环上明显更强,虽然两者都还有空间。OpenClaw 和 Hermes 正在收敛成自主、本地优先、持久的 runtime,而 Odysseus 是个 UI 层、n8n 是个低代码自动化平台,完全是另外两个品类。
https://x.com/victorialslocum/status/2064617082600272142
当下关于 agent runtime 乱局最有用的一张地图,按「到底差在哪」拆解了 OpenClaw、Hermes、Odysseus 和 n8n。最要紧的维度是持久化记忆和自我改进:大多数工具是基于 session 的,关掉窗口就全忘,她称这是当前 AI 系统最大的瓶颈之一。Hermes 就是为解决这个而造的,跨 session 保留记忆、从经验里写自己的 skill 文件;OpenClaw 通过你自己配置的插件实现持久记忆;在她手里 Hermes 在自我改进循环上明显更强,虽然两者都还有空间。OpenClaw 和 Hermes 正在收敛成自主、本地优先、持久的 runtime,而 Odysseus 是个 UI 层、n8n 是个低代码自动化平台,完全是另外两个品类。
#11
@jimboot
https://x.com/jimboot/status/2064620466371957019
今天关于一个 agentic 循环最具体的 token 经济拆解,把整个 Loop 和超级用户的讨论串到了一起。他追踪了一个 session:大约 30 次工具调用(爬网页、户型图截图、写文件、QA 截图),每次都重发整段对话,context 涨到 13 万 token 以上,光 claude-api 的 skill 文档就约 7 万,所有请求累计输入大概 150 到 200 万 token。缓存救了场——Claude Code 缓存很激进,所以大部分是缓存读取,按 1 美元/百万而不是 10 美元/百万计费,最后落在 5 到 6 美元,而不是不缓存要烧的 18 到 20 美元。隐蔽成本是截图,每张图在缓存前每次请求都被重读一遍。这正是这周每一个失控账单恐怖故事背后的那笔账。
https://x.com/jimboot/status/2064620466371957019
今天关于一个 agentic 循环最具体的 token 经济拆解,把整个 Loop 和超级用户的讨论串到了一起。他追踪了一个 session:大约 30 次工具调用(爬网页、户型图截图、写文件、QA 截图),每次都重发整段对话,context 涨到 13 万 token 以上,光 claude-api 的 skill 文档就约 7 万,所有请求累计输入大概 150 到 200 万 token。缓存救了场——Claude Code 缓存很激进,所以大部分是缓存读取,按 1 美元/百万而不是 10 美元/百万计费,最后落在 5 到 6 美元,而不是不缓存要烧的 18 到 20 美元。隐蔽成本是截图,每张图在缓存前每次请求都被重读一遍。这正是这周每一个失控账单恐怖故事背后的那笔账。
#12
@lividprowess
https://x.com/lividprowess/status/2064581324133007802
一个 22 岁的生物技术本科生跳过了学样板语法,用一个多 agent 循环搭出了一个 1.1 万行的 PyTorch 框架,模拟生物物理神经元群、STDP 和脑机接口解码器。这是条小帖子但很真实——计算神经科学正是 agent 循环模式真正值钱的那种非软件领域,一个有领域知识但没有编码训练量的人,用一个循环产出了一个严肃的研究产物。这和超级用户那边黑客松故事里出现的「领域知识压过语法」是同一个转向,只不过对准的是神经元而不是落地页。
https://x.com/lividprowess/status/2064581324133007802
一个 22 岁的生物技术本科生跳过了学样板语法,用一个多 agent 循环搭出了一个 1.1 万行的 PyTorch 框架,模拟生物物理神经元群、STDP 和脑机接口解码器。这是条小帖子但很真实——计算神经科学正是 agent 循环模式真正值钱的那种非软件领域,一个有领域知识但没有编码训练量的人,用一个循环产出了一个严肃的研究产物。这和超级用户那边黑客松故事里出现的「领域知识压过语法」是同一个转向,只不过对准的是神经元而不是落地页。
#13
@DavidShulmanFL
https://x.com/DavidShulmanFL/status/2064843547698721026
一个对 Karpathy autoresearch 模式干净的个人化应用:一个无人值守的 LLM 循环,配一个设定目标的 program 文件,跑到一定深度,把输出直接归档进一个知识库。妙处在于输入——它编译的不是网络,而是他自己的对话,他持有的立场、做过的决定、项目、人、概念。这是把 autoresearch 的想法对准了内部,用同一套「无人循环加 program 文件」的结构,不是去发现新科学,而是去构建一份结构化、自维护的、关于一个人思考的记忆。
https://x.com/DavidShulmanFL/status/2064843547698721026
一个对 Karpathy autoresearch 模式干净的个人化应用:一个无人值守的 LLM 循环,配一个设定目标的 program 文件,跑到一定深度,把输出直接归档进一个知识库。妙处在于输入——它编译的不是网络,而是他自己的对话,他持有的立场、做过的决定、项目、人、概念。这是把 autoresearch 的想法对准了内部,用同一套「无人循环加 program 文件」的结构,不是去发现新科学,而是去构建一份结构化、自维护的、关于一个人思考的记忆。
#14
@spenserskates
https://x.com/spenserskates/status/2064759773292368141
Amplitude 的 CEO 推出了 Wave,一个主动型产品 agent,跑的是完整的「构建—发布—使用—学习」循环,而不只是构建那一半。论点很锋利:AI 让构建和发布快到离谱,但理解用量和学习仍然靠手工。Wave 跨分析、反馈、会话回放、错误日志、agent 轨迹和实验结果去分析 Amplitude 数据,把机会以完整产品 spec 的形式浮出来、让你或你的 agent 批准并发布,然后追踪结果让循环重新开始。这是个产品发布,但它是对「补上循环里学习那一半」的一次真诚尝试——而大多数 agent 配置都把那一半丢给了人。
https://x.com/spenserskates/status/2064759773292368141
Amplitude 的 CEO 推出了 Wave,一个主动型产品 agent,跑的是完整的「构建—发布—使用—学习」循环,而不只是构建那一半。论点很锋利:AI 让构建和发布快到离谱,但理解用量和学习仍然靠手工。Wave 跨分析、反馈、会话回放、错误日志、agent 轨迹和实验结果去分析 Amplitude 数据,把机会以完整产品 spec 的形式浮出来、让你或你的 agent 批准并发布,然后追踪结果让循环重新开始。这是个产品发布,但它是对「补上循环里学习那一半」的一次真诚尝试——而大多数 agent 配置都把那一半丢给了人。
#15
@victor_zhng
https://x.com/victor_zhng/status/2064812227228823817
一套紧凑、实用的方法论,关于怎么搭一个公司金融的 agent 循环,来自一个真在做金融的人。假设你已经有了 harness(prompt 指令、上下文管理、检索、agent 循环、访问控制、工具调用),方法是:把流程拆成检索、财务建模、输出生成,把你想评判的能力拆开——检索准确率、计算准确率、推理、判断决策,据此设计 eval,然后跑、找问题、调 harness、再测。这是把「eval 驱动的 harness 调优」纪律应用到一个高风险的非编码领域,也是循环工程那帮人比划的一切的、不那么花哨的现实版本。
https://x.com/victor_zhng/status/2064812227228823817
一套紧凑、实用的方法论,关于怎么搭一个公司金融的 agent 循环,来自一个真在做金融的人。假设你已经有了 harness(prompt 指令、上下文管理、检索、agent 循环、访问控制、工具调用),方法是:把流程拆成检索、财务建模、输出生成,把你想评判的能力拆开——检索准确率、计算准确率、推理、判断决策,据此设计 eval,然后跑、找问题、调 harness、再测。这是把「eval 驱动的 harness 调优」纪律应用到一个高风险的非编码领域,也是循环工程那帮人比划的一切的、不那么花哨的现实版本。
📡 生态产品雷达
生态产品雷达
Fable(11 次)是这一轮所有人都在往自己循环里接的模型。Hermes(8)和 OpenClaw(3)仍是自我改进讨论围绕的两个持久、本地优先的 agent runtime,Cursor(5)和 Claude Code(5)是编码 harness。MCP(6)是工具型循环的连接层。EEVEE(4)作为今天的学术自我改进 agent 框架冒了出来,DeepSeek(3)反复出现,既是 benchmark 目标,也是省钱派循环构建者用的便宜模型。
Fable(11 次)是这一轮所有人都在往自己循环里接的模型。Hermes(8)和 OpenClaw(3)仍是自我改进讨论围绕的两个持久、本地优先的 agent runtime,Cursor(5)和 Claude Code(5)是编码 harness。MCP(6)是工具型循环的连接层。EEVEE(4)作为今天的学术自我改进 agent 框架冒了出来,DeepSeek(3)反复出现,既是 benchmark 目标,也是省钱派循环构建者用的便宜模型。
评论