Loop 日报: 2026年7月3日
这周慢慢浮出水面的一个主题是:连词汇本身都变了——「prompt engineering」变成了 context engineering,「research」变成了 autoresearch,而真正在干活的人,是那批不再写提示词、开始设计循环的人。Physical AutoResearch 一路推到让机器人自己教自己学技能,金融和能源系统的循环在主人睡觉时整夜跑,对抗式的 builder 加 reviewer 流水线也成熟到能直接产出开源工具。撇开那些交易机器人的炒作叙事,真正反复被验证的洞见只有一句:一个循环只有在外部有东西能否决它的坏输出时才配得上自主权,而能抓住真实失败的那套 eval,才是最难啃的部分。
#1
@DrJimFan
https://x.com/DrJimFan/status/2072337488782475390
宣布 ENPIRE 升级为 ASPIRE,这是 Physical AutoResearch 系列的第二篇,目标是让机器人一次一个 /skill 地自我进化。他把机器人的能力成长直接当成一个 autoresearch 循环来看,去搭那些让具身智能体自己变强的组件,而不是靠工程师一点点手调。这套思路的核心,就是把「自我改进」这件事从人力密集型的调参变成可自动跑的循环。
https://x.com/DrJimFan/status/2072337488782475390
宣布 ENPIRE 升级为 ASPIRE,这是 Physical AutoResearch 系列的第二篇,目标是让机器人一次一个 /skill 地自我进化。他把机器人的能力成长直接当成一个 autoresearch 循环来看,去搭那些让具身智能体自己变强的组件,而不是靠工程师一点点手调。这套思路的核心,就是把「自我改进」这件事从人力密集型的调参变成可自动跑的循环。
#2
@FTayAI
https://x.com/FTayAI/status/2072138123052523814
一份很有冲击力的完整记录:他打算在 2026 年底前用一整支智能体军团把整个生意自动化。他已经「雇」了一个董事会来做决策、智能体做客服,还刚把第一个 AI 销售专员放到了真实的潜客对话里——全程无脚本,先确认对方消息,再靠一个挂在每条来消息上的自定义销售 skill 主导对话。目前他高端产品的 22 个付费用户基本没碰过销售就拿下了,接下来他打算让 autoresearch 从记录下来的对话里递归地自我优化这个销售智能体。
https://x.com/FTayAI/status/2072138123052523814
一份很有冲击力的完整记录:他打算在 2026 年底前用一整支智能体军团把整个生意自动化。他已经「雇」了一个董事会来做决策、智能体做客服,还刚把第一个 AI 销售专员放到了真实的潜客对话里——全程无脚本,先确认对方消息,再靠一个挂在每条来消息上的自定义销售 skill 主导对话。目前他高端产品的 22 个付费用户基本没碰过销售就拿下了,接下来他打算让 autoresearch 从记录下来的对话里递归地自我优化这个销售智能体。
#3
@R_E_Beer
https://x.com/R_E_Beer/status/2072319364821606747
讲他怎么在后台架起 Karpathy 式的 auto-research 循环,工作和好奇心两头都用。他的例子来自能源系统设计的老本行:给智能体一个起点问题(比如优化对某个电池储能系统的投资),然后一边用专家级提示往里加复杂度,一边让分析全天候地跑——「你只要把智能体指向问题,然后就能去陪孩子玩,分析自己会跑」。前提是你已经吃透了基本面,这样搭起来只要 15 到 30 分钟。
https://x.com/R_E_Beer/status/2072319364821606747
讲他怎么在后台架起 Karpathy 式的 auto-research 循环,工作和好奇心两头都用。他的例子来自能源系统设计的老本行:给智能体一个起点问题(比如优化对某个电池储能系统的投资),然后一边用专家级提示往里加复杂度,一边让分析全天候地跑——「你只要把智能体指向问题,然后就能去陪孩子玩,分析自己会跑」。前提是你已经吃透了基本面,这样搭起来只要 15 到 30 分钟。
#4
@natashamalpani
https://x.com/natashamalpani/status/2072196402071962026
一篇很犀利的文章,指出 AI 加科学的讨论把「执行」和「发现」混为一谈了。Karpathy 的 autoresearch——48 小时跑 700 个实验、20 项改进、全程无人介入——之所以成立,是因为成功与否清晰无歧义、而且能快速衡量,这本质是压缩,也就是执行。而那个推翻了 1946 年 Erdős 猜想的 OpenAI 模型完全是另一回事:它同时探索了比任何人一辈子都多的数学空间,没有任何 verifier 告诉它下一步该走哪。跨度对压缩,发现对执行,这条线得分清楚。
https://x.com/natashamalpani/status/2072196402071962026
一篇很犀利的文章,指出 AI 加科学的讨论把「执行」和「发现」混为一谈了。Karpathy 的 autoresearch——48 小时跑 700 个实验、20 项改进、全程无人介入——之所以成立,是因为成功与否清晰无歧义、而且能快速衡量,这本质是压缩,也就是执行。而那个推翻了 1946 年 Erdős 猜想的 OpenAI 模型完全是另一回事:它同时探索了比任何人一辈子都多的数学空间,没有任何 verifier 告诉它下一步该走哪。跨度对压缩,发现对执行,这条线得分清楚。
#5
@softwaredoug
https://x.com/softwaredoug/status/2072363880345436448
一个很有想法的判断:loop engineering 跟 autoresearch 极其接近,也许编码智能体最好的用法就是纯 autoresearch。他画了一条从 autoresearch 到纯手写代码的光谱,中间夹着一道「巨大的鸿沟」——那些搭得糟糕、需求没说清、时好时坏的半吊子 autoresearcher。正是这道鸿沟解释了为什么智能体有时聪明得不行、有时又蠢得要命,除非你干脆一路推到 autoresearch 那一端。
https://x.com/softwaredoug/status/2072363880345436448
一个很有想法的判断:loop engineering 跟 autoresearch 极其接近,也许编码智能体最好的用法就是纯 autoresearch。他画了一条从 autoresearch 到纯手写代码的光谱,中间夹着一道「巨大的鸿沟」——那些搭得糟糕、需求没说清、时好时坏的半吊子 autoresearcher。正是这道鸿沟解释了为什么智能体有时聪明得不行、有时又蠢得要命,除非你干脆一路推到 autoresearch 那一端。
#6
@stretchcloud
https://x.com/stretchcloud/status/2072401100133855452
拆解了 AI Auto-Work 这套开源的对抗式流水线:Claude Code 当 builder,Codex 当对抗式 reviewer,每个阶段互相隔离,只有文件往下传,进 review 之前必须过编译和测试的门槛。它结构上的优势在于换一个模型、带着不同的视角和不同的盲区分布来审——Claude 漏掉的,Codex 往往能抓到。系统性的错误会写回一个共享的 .ai/ 知识库,让纠错跨会话累积,而不是只停留在这一份代码里。
https://x.com/stretchcloud/status/2072401100133855452
拆解了 AI Auto-Work 这套开源的对抗式流水线:Claude Code 当 builder,Codex 当对抗式 reviewer,每个阶段互相隔离,只有文件往下传,进 review 之前必须过编译和测试的门槛。它结构上的优势在于换一个模型、带着不同的视角和不同的盲区分布来审——Claude 漏掉的,Codex 往往能抓到。系统性的错误会写回一个共享的 .ai/ 知识库,让纠错跨会话累积,而不是只停留在这一份代码里。
#7
@nisedo_
https://x.com/nisedo_/status/2072216335514276222
从搭了十几个智能体工作流里总结出的一个实用招:加一个 supervisor 智能体,它唯一的活就是盯着整个运行、卡住时出手疏通、每碰到一个 bug 或边界情况就开一个 GitHub issue。跑几轮之后大部分 bug 都被补上,这个 supervisor 本身就成了一个自我改进的循环。他补充说自己还是更愿意在动手前先过一遍这些 GH issue,有时候会用跟 supervisor 建议不一样的方式去修。
https://x.com/nisedo_/status/2072216335514276222
从搭了十几个智能体工作流里总结出的一个实用招:加一个 supervisor 智能体,它唯一的活就是盯着整个运行、卡住时出手疏通、每碰到一个 bug 或边界情况就开一个 GitHub issue。跑几轮之后大部分 bug 都被补上,这个 supervisor 本身就成了一个自我改进的循环。他补充说自己还是更愿意在动手前先过一遍这些 GH issue,有时候会用跟 supervisor 建议不一样的方式去修。
#8
@kepochnik
https://x.com/kepochnik/status/2072284018725605630
详细讲了一套全天候跑、能自己学模式的 Hermes 加 Obsidian 第二大脑。自我改进的循环每 10 轮触发一次,自动回顾对话、更新记忆文件;凌晨 4 点还有一轮陈旧会话清扫,赶在老对话过期前把里面的学习提取出来。他提到 200 个预装 skill 一开始反而把他的智能体搞崩了,后来换成一套精挑细选的才修好;而隔离的 Discord 频道让生活的每个领域都有自己专属的智能体人格和技能集。
https://x.com/kepochnik/status/2072284018725605630
详细讲了一套全天候跑、能自己学模式的 Hermes 加 Obsidian 第二大脑。自我改进的循环每 10 轮触发一次,自动回顾对话、更新记忆文件;凌晨 4 点还有一轮陈旧会话清扫,赶在老对话过期前把里面的学习提取出来。他提到 200 个预装 skill 一开始反而把他的智能体搞崩了,后来换成一套精挑细选的才修好;而隔离的 Discord 频道让生活的每个领域都有自己专属的智能体人格和技能集。
#9
@tom_doerr
https://x.com/tom_doerr/status/2072251701608784049
分享了一个会自我改进的元 skill:它通过观察真实的工作会话来起草和更新 AI 智能体的 skill——不用你去猜提示词该怎么写,系统直接看执行过程,根据真正成功的做法来打磨 skill 定义。这算是对自我改进智能体里那个「skill 到底怎么写出来」瓶颈的一个具体解答。
https://x.com/tom_doerr/status/2072251701608784049
分享了一个会自我改进的元 skill:它通过观察真实的工作会话来起草和更新 AI 智能体的 skill——不用你去猜提示词该怎么写,系统直接看执行过程,根据真正成功的做法来打磨 skill 定义。这算是对自我改进智能体里那个「skill 到底怎么写出来」瓶颈的一个具体解答。
#10
@evermind
https://x.com/evermind/status/2072297085203017898
推出 Raven,一个记忆优先、能自我改进的智能体运行框架,底层跑 EverOS,把用户记忆、智能体记忆、工具、skill、策略和执行上下文全放在一起。它最关键的循环原语是:跑成功的工作流会变成可复用的智能体模板,于是系统是靠已经验证有效的东西不断攒能力,而不是每个任务都从头再来。
https://x.com/evermind/status/2072297085203017898
推出 Raven,一个记忆优先、能自我改进的智能体运行框架,底层跑 EverOS,把用户记忆、智能体记忆、工具、skill、策略和执行上下文全放在一起。它最关键的循环原语是:跑成功的工作流会变成可复用的智能体模板,于是系统是靠已经验证有效的东西不断攒能力,而不是每个任务都从头再来。
#11
@algoxstonk
https://x.com/algoxstonk/status/2072389899396034885
开源了 blcli,一套在 3000 万以上用户规模上实战检验过的智能体基础设施栈,让编码智能体能通过代码、PR、dry-run 和确定性的 apply 流程去管理整套云基础设施。他的论点很尖锐:智能体只会搭玩具级基础设施,不是因为它搞不定真实系统,而是因为真实基础设施需要海量的专家上下文,所以 blcli 把这些生产知识以代码优先的形式打包好,让智能体能读、能推理、能在 18 个月的迭代周期里安全地操作。
https://x.com/algoxstonk/status/2072389899396034885
开源了 blcli,一套在 3000 万以上用户规模上实战检验过的智能体基础设施栈,让编码智能体能通过代码、PR、dry-run 和确定性的 apply 流程去管理整套云基础设施。他的论点很尖锐:智能体只会搭玩具级基础设施,不是因为它搞不定真实系统,而是因为真实基础设施需要海量的专家上下文,所以 blcli 把这些生产知识以代码优先的形式打包好,让智能体能读、能推理、能在 18 个月的迭代周期里安全地操作。
#12
@anton_iades
https://x.com/anton_iades/status/2072396614287962156
发布了 Heuresis,一个可组合的框架,把编码智能体和任意搜索算法塞进一个灵活的循环里,专门用来提升那些做新颖 AI 发现的 Auto Research Agent 的探索能力。它盯的正是大多数 autoresearch 方案投入不足的那部分——不只是把实验跑起来,而是聪明地去搜索「该试什么」的空间。
https://x.com/anton_iades/status/2072396614287962156
发布了 Heuresis,一个可组合的框架,把编码智能体和任意搜索算法塞进一个灵活的循环里,专门用来提升那些做新颖 AI 发现的 Auto Research Agent 的探索能力。它盯的正是大多数 autoresearch 方案投入不足的那部分——不只是把实验跑起来,而是聪明地去搜索「该试什么」的空间。
#13
@Dinosn
https://x.com/Dinosn/status/2072238179805962355
挖出了 anti-autoresearch,一个站在 reviewer 一侧的诚信取证工具:别一上来就信一篇 autoresearch 论文。它跑自洽性和造假检查、给出一个确定性的裁决,一共 61 个信号,其中 46 个是横跨 A 到 H 各家族的诚信作弊模式。在 autoresearch 产出泛滥的当下,这是一个必要的对冲——一个专门审计其他循环的循环。
https://x.com/Dinosn/status/2072238179805962355
挖出了 anti-autoresearch,一个站在 reviewer 一侧的诚信取证工具:别一上来就信一篇 autoresearch 论文。它跑自洽性和造假检查、给出一个确定性的裁决,一共 61 个信号,其中 46 个是横跨 A 到 H 各家族的诚信作弊模式。在 autoresearch 产出泛滥的当下,这是一个必要的对冲——一个专门审计其他循环的循环。
#14
@SwishMoe
https://x.com/SwishMoe/status/2072303928180416527
介绍了 autoresearch-explorer:一个 Qwen3-8B 的 GRPO 智能体,学的是哪些文档块值得打开、以及在预算约束下怎么作答——训练的是模型对工作流的判断力,而不只是把提示词写得更好。他还并行搭了一个研究文档版和一个金融文档版,方向一致:靠一个循环学出领域专用的判断模型,而不是靠人手把规则写死。
https://x.com/SwishMoe/status/2072303928180416527
介绍了 autoresearch-explorer:一个 Qwen3-8B 的 GRPO 智能体,学的是哪些文档块值得打开、以及在预算约束下怎么作答——训练的是模型对工作流的判断力,而不只是把提示词写得更好。他还并行搭了一个研究文档版和一个金融文档版,方向一致:靠一个循环学出领域专用的判断模型,而不是靠人手把规则写死。
#15
@JustinAngel
https://x.com/JustinAngel/status/2072401192907612481
提出了一个新的 autoresearch benchmark,针对 NanoGPT speedrun,分三档——带 arxiv、带互联网、什么都不带。早期发现:Claude 在拒答和 token 用量上领先,Codex 不拒答但结果相近,而 Kimi K2.5 用的 token 最少。最耐人寻味的元结论是:所有进步都来自复用已有技术,虽有一些新颖的改造,但没有一项是真正全新的技术。
https://x.com/JustinAngel/status/2072401192907612481
提出了一个新的 autoresearch benchmark,针对 NanoGPT speedrun,分三档——带 arxiv、带互联网、什么都不带。早期发现:Claude 在拒答和 token 用量上领先,Codex 不拒答但结果相近,而 Kimi K2.5 用的 token 最少。最耐人寻味的元结论是:所有进步都来自复用已有技术,虽有一些新颖的改造,但没有一项是真正全新的技术。
#16
@doronkatz
https://x.com/doronkatz/status/2072353986594898331
一份对 Perplexity Brain 的深度运营剖析,观点是关键不在它记住了什么,而在它记住的是「智能体的工作做了什么、哪些成了哪些败了」,再连夜精炼成一张上下文图谱(重复任务上正确率加 25%、召回加 16%、成本减 13%)。他把智能体记忆从一个 UX 功能重新定义成一个系统层面:有版本、可回滚、有审计轨迹、还有成本模型——并给出一份五点清单(来源可追溯、保留与遗忘、归属权、成本模型),主张把自我改进的记忆循环当成基础设施来对待。
https://x.com/doronkatz/status/2072353986594898331
一份对 Perplexity Brain 的深度运营剖析,观点是关键不在它记住了什么,而在它记住的是「智能体的工作做了什么、哪些成了哪些败了」,再连夜精炼成一张上下文图谱(重复任务上正确率加 25%、召回加 16%、成本减 13%)。他把智能体记忆从一个 UX 功能重新定义成一个系统层面:有版本、可回滚、有审计轨迹、还有成本模型——并给出一份五点清单(来源可追溯、保留与遗忘、归属权、成本模型),主张把自我改进的记忆循环当成基础设施来对待。
#17
@vadwarp
https://x.com/vadwarp/status/2072336532564836861
在搭一个自我改进的循环,让一个自主智能体把自己的源码当成工作空间——学习、记忆、最终能自己改自己——他的论点是 Opus 4.8 以上的模型只要精心设置,是有能力做自我分析的。他参考了几篇近期论文(A Self-Improving Coding Agent、Darwin Gödel Machine、HyperAgents),在正式文章之前先放出一批信息图,文章会讲他第一个真实世界实验的结果。
https://x.com/vadwarp/status/2072336532564836861
在搭一个自我改进的循环,让一个自主智能体把自己的源码当成工作空间——学习、记忆、最终能自己改自己——他的论点是 Opus 4.8 以上的模型只要精心设置,是有能力做自我分析的。他参考了几篇近期论文(A Self-Improving Coding Agent、Darwin Gödel Machine、HyperAgents),在正式文章之前先放出一批信息图,文章会讲他第一个真实世界实验的结果。
#18
@0thernet
https://x.com/0thernet/status/2072284840121286793
受够了用别人的 harness 和 IDE,他在一个通宵会话里(晚上 11 点干到凌晨 4 点半)自己搓出了一个能自我改进的编码智能体加应用。它已经嵌进了他们的仓库,复用的还是一个尚未公布的产品的同一套技术栈——这是一个小小的佐证,说明如今搭一个定制的自我改进 harness 能快到什么程度。
https://x.com/0thernet/status/2072284840121286793
受够了用别人的 harness 和 IDE,他在一个通宵会话里(晚上 11 点干到凌晨 4 点半)自己搓出了一个能自我改进的编码智能体加应用。它已经嵌进了他们的仓库,复用的还是一个尚未公布的产品的同一套技术栈——这是一个小小的佐证,说明如今搭一个定制的自我改进 harness 能快到什么程度。
#19
@Ivory_Towerz
https://x.com/Ivory_Towerz/status/2072464516546252892
细致地拆了长时运行智能体的 Hermes token 经济学:大头成本不来自你有意发起的对话,而来自后台进程、上下文膨胀,以及那些每一轮都默认加载 90 多个 skill 和完整工具 schema 的设置。他给的 10 条具体削减措施——后台任务用便宜的辅助模型、把子智能体路由到更便宜的模型、更激进的压缩阈值、砍掉用不上的 skill、开启按需的工具搜索——就是那层实操调优,能在保留 auto-memory 的同时把自我改进循环的成本压住。
https://x.com/Ivory_Towerz/status/2072464516546252892
细致地拆了长时运行智能体的 Hermes token 经济学:大头成本不来自你有意发起的对话,而来自后台进程、上下文膨胀,以及那些每一轮都默认加载 90 多个 skill 和完整工具 schema 的设置。他给的 10 条具体削减措施——后台任务用便宜的辅助模型、把子智能体路由到更便宜的模型、更激进的压缩阈值、砍掉用不上的 skill、开启按需的工具搜索——就是那层实操调优,能在保留 auto-memory 的同时把自我改进循环的成本压住。
#20
@ariccio
https://x.com/ariccio/status/2072322063449080156
指出一个还没人在用的智能体循环:GPT-5.5 Codex 很擅长写各种静态检查,所以当你观察到一个问题时,让它写一个静态检查,再让 Codex 把这个检查揪出来的其他所有实例都修掉,最后把它接进你的 git hook 或 CI/CD。一个漂亮的自我强化循环,每一个被观察到的 bug 都变成一道永久的护栏。
https://x.com/ariccio/status/2072322063449080156
指出一个还没人在用的智能体循环:GPT-5.5 Codex 很擅长写各种静态检查,所以当你观察到一个问题时,让它写一个静态检查,再让 Codex 把这个检查揪出来的其他所有实例都修掉,最后把它接进你的 git hook 或 CI/CD。一个漂亮的自我强化循环,每一个被观察到的 bug 都变成一道永久的护栏。
#21
@hrswatigupta
https://x.com/hrswatigupta/status/2072313463465279523
介绍了 AxDafny,它用一个智能体循环,让 Dafny 验证器充当老师:生成代码和证明、跑过验证器、哪里不过就修哪里。这是一个循环带着真正外部、无歧义裁判的干净例子——那个 verifier——而这正是让它能自主跑起来的关键所在。
https://x.com/hrswatigupta/status/2072313463465279523
介绍了 AxDafny,它用一个智能体循环,让 Dafny 验证器充当老师:生成代码和证明、跑过验证器、哪里不过就修哪里。这是一个循环带着真正外部、无歧义裁判的干净例子——那个 verifier——而这正是让它能自主跑起来的关键所在。
#22
@PixelRainbowNFT
https://x.com/PixelRainbowNFT/status/2072414229412651321
开源了 DwarfStar DS4 面板,内置一个 MCP server,让处在智能体循环里的模型能用编程方式驱动整个面板:启动引擎、跑 benchmark、看指标、调一个配置档、重跑、再迭代。模型实际上能对着自己的运行时来训练、调优、测试自己——一个自调优的循环,DeepSeek4 可以调 DS4 自己的设置。
https://x.com/PixelRainbowNFT/status/2072414229412651321
开源了 DwarfStar DS4 面板,内置一个 MCP server,让处在智能体循环里的模型能用编程方式驱动整个面板:启动引擎、跑 benchmark、看指标、调一个配置档、重跑、再迭代。模型实际上能对着自己的运行时来训练、调优、测试自己——一个自调优的循环,DeepSeek4 可以调 DS4 自己的设置。
#23
@julie_bush
https://x.com/julie_bush/status/2072211761781223492
为 Hermes Agent 黑客松做了 Cursus Publicus,回应 Patrick Collison 想要一个 LLM 工作流工具的需求:文件、上下文、存好的提示词、编码智能体、编译好的产出、可分享的结果。它是一个「给智能体用的邮局」——底层是 NVIDIA Nemotron 3 Ultra 上的免费 AI、Hermes 智能体、Stripe 支付,外加 loop、autoresearch、记忆和回执。
https://x.com/julie_bush/status/2072211761781223492
为 Hermes Agent 黑客松做了 Cursus Publicus,回应 Patrick Collison 想要一个 LLM 工作流工具的需求:文件、上下文、存好的提示词、编码智能体、编译好的产出、可分享的结果。它是一个「给智能体用的邮局」——底层是 NVIDIA Nemotron 3 Ultra 上的免费 AI、Hermes 智能体、Stripe 支付,外加 loop、autoresearch、记忆和回执。
#24
@eliebakouch
https://x.com/eliebakouch/status/2072202622027833618
在准备会议幻灯片时,他让 Claude 改一下自己 autoresearch 图表的颜色,结果被安全过滤器拦了下来——「一切都很好 :)」。一个小但很说明问题的摩擦小插曲:一个正在展示 autoresearch 工作的研究者,被提醒安全分类器正在误伤这些完全无害、只是沾了点 autoresearch 边的请求。
https://x.com/eliebakouch/status/2072202622027833618
在准备会议幻灯片时,他让 Claude 改一下自己 autoresearch 图表的颜色,结果被安全过滤器拦了下来——「一切都很好 :)」。一个小但很说明问题的摩擦小插曲:一个正在展示 autoresearch 工作的研究者,被提醒安全分类器正在误伤这些完全无害、只是沾了点 autoresearch 边的请求。
📡 生态产品雷达
生态产品雷达
Karpathy 的 autoresearch 模式是这周的引力中心,几乎每一场认真的循环讨论都会提到它。Hermes 和 OpenClaw 反复出现,是大家用来往上搭循环的常驻智能体 harness;而 Claude Code 和 Codex 则是对抗式流水线里默认的 builder/reviewer 搭档。Obsidian 一次次冒出来,充当自我改进型第二大脑循环的记忆底座,而 Perplexity Brain 是本周被讨论最多的产品化记忆循环。框架这一侧,EverOS/Raven、blcli、Heuresis 和 darwin-agents 都把自己定位成循环或自我改进的基础设施,而 DeepSeek、Qwen、Kimi K2.5 则反复作为大家塞进这些循环里跑的模型出现。
Karpathy 的 autoresearch 模式是这周的引力中心,几乎每一场认真的循环讨论都会提到它。Hermes 和 OpenClaw 反复出现,是大家用来往上搭循环的常驻智能体 harness;而 Claude Code 和 Codex 则是对抗式流水线里默认的 builder/reviewer 搭档。Obsidian 一次次冒出来,充当自我改进型第二大脑循环的记忆底座,而 Perplexity Brain 是本周被讨论最多的产品化记忆循环。框架这一侧,EverOS/Raven、blcli、Heuresis 和 darwin-agents 都把自己定位成循环或自我改进的基础设施,而 DeepSeek、Qwen、Kimi K2.5 则反复作为大家塞进这些循环里跑的模型出现。
评论