2026年7月3日loop

Loop 日报: 2026年7月3日

这周慢慢浮出水面的一个主题是：连词汇本身都变了——「prompt engineering」变成了 context engineering，「research」变成了 autoresearch，而真正在干活的人，是那批不再写提示词、开始设计循环的人。Physical AutoResearch 一路推到让机器人自己教自己学技能，金融和能源系统的循环在主人睡觉时整夜跑，对抗式的 builder 加 reviewer 流水线也成熟到能直接产出开源工具。撇开那些交易机器人的炒作叙事，真正反复被验证的洞见只有一句：一个循环只有在外部有东西能否决它的坏输出时才配得上自主权，而能抓住真实失败的那套 eval，才是最难啃的部分。

💡#1

@DrJimFan
https://x.com/DrJimFan/status/2072337488782475390
宣布 ENPIRE 升级为 ASPIRE，这是 Physical AutoResearch 系列的第二篇，目标是让机器人一次一个 /skill 地自我进化。他把机器人的能力成长直接当成一个 autoresearch 循环来看，去搭那些让具身智能体自己变强的组件，而不是靠工程师一点点手调。这套思路的核心，就是把「自我改进」这件事从人力密集型的调参变成可自动跑的循环。

💡#2

@FTayAI
https://x.com/FTayAI/status/2072138123052523814
一份很有冲击力的完整记录：他打算在 2026 年底前用一整支智能体军团把整个生意自动化。他已经「雇」了一个董事会来做决策、智能体做客服，还刚把第一个 AI 销售专员放到了真实的潜客对话里——全程无脚本，先确认对方消息，再靠一个挂在每条来消息上的自定义销售 skill 主导对话。目前他高端产品的 22 个付费用户基本没碰过销售就拿下了，接下来他打算让 autoresearch 从记录下来的对话里递归地自我优化这个销售智能体。

💡#3

@R_E_Beer
https://x.com/R_E_Beer/status/2072319364821606747
讲他怎么在后台架起 Karpathy 式的 auto-research 循环，工作和好奇心两头都用。他的例子来自能源系统设计的老本行：给智能体一个起点问题（比如优化对某个电池储能系统的投资），然后一边用专家级提示往里加复杂度，一边让分析全天候地跑——「你只要把智能体指向问题，然后就能去陪孩子玩，分析自己会跑」。前提是你已经吃透了基本面，这样搭起来只要 15 到 30 分钟。

💡#4

@natashamalpani
https://x.com/natashamalpani/status/2072196402071962026
一篇很犀利的文章，指出 AI 加科学的讨论把「执行」和「发现」混为一谈了。Karpathy 的 autoresearch——48 小时跑 700 个实验、20 项改进、全程无人介入——之所以成立，是因为成功与否清晰无歧义、而且能快速衡量，这本质是压缩，也就是执行。而那个推翻了 1946 年 Erdős 猜想的 OpenAI 模型完全是另一回事：它同时探索了比任何人一辈子都多的数学空间，没有任何 verifier 告诉它下一步该走哪。跨度对压缩，发现对执行，这条线得分清楚。

💡#5

@softwaredoug
https://x.com/softwaredoug/status/2072363880345436448
一个很有想法的判断：loop engineering 跟 autoresearch 极其接近，也许编码智能体最好的用法就是纯 autoresearch。他画了一条从 autoresearch 到纯手写代码的光谱，中间夹着一道「巨大的鸿沟」——那些搭得糟糕、需求没说清、时好时坏的半吊子 autoresearcher。正是这道鸿沟解释了为什么智能体有时聪明得不行、有时又蠢得要命，除非你干脆一路推到 autoresearch 那一端。

💡#6

@stretchcloud
https://x.com/stretchcloud/status/2072401100133855452
拆解了 AI Auto-Work 这套开源的对抗式流水线：Claude Code 当 builder，Codex 当对抗式 reviewer，每个阶段互相隔离，只有文件往下传，进 review 之前必须过编译和测试的门槛。它结构上的优势在于换一个模型、带着不同的视角和不同的盲区分布来审——Claude 漏掉的，Codex 往往能抓到。系统性的错误会写回一个共享的 .ai/ 知识库，让纠错跨会话累积，而不是只停留在这一份代码里。

💡#7

@nisedo_
https://x.com/nisedo_/status/2072216335514276222
从搭了十几个智能体工作流里总结出的一个实用招：加一个 supervisor 智能体，它唯一的活就是盯着整个运行、卡住时出手疏通、每碰到一个 bug 或边界情况就开一个 GitHub issue。跑几轮之后大部分 bug 都被补上，这个 supervisor 本身就成了一个自我改进的循环。他补充说自己还是更愿意在动手前先过一遍这些 GH issue，有时候会用跟 supervisor 建议不一样的方式去修。

💡#8

@kepochnik
https://x.com/kepochnik/status/2072284018725605630
详细讲了一套全天候跑、能自己学模式的 Hermes 加 Obsidian 第二大脑。自我改进的循环每 10 轮触发一次，自动回顾对话、更新记忆文件；凌晨 4 点还有一轮陈旧会话清扫，赶在老对话过期前把里面的学习提取出来。他提到 200 个预装 skill 一开始反而把他的智能体搞崩了，后来换成一套精挑细选的才修好；而隔离的 Discord 频道让生活的每个领域都有自己专属的智能体人格和技能集。

💡#9

@tom_doerr
https://x.com/tom_doerr/status/2072251701608784049
分享了一个会自我改进的元 skill：它通过观察真实的工作会话来起草和更新 AI 智能体的 skill——不用你去猜提示词该怎么写，系统直接看执行过程，根据真正成功的做法来打磨 skill 定义。这算是对自我改进智能体里那个「skill 到底怎么写出来」瓶颈的一个具体解答。

💡#10

@evermind
https://x.com/evermind/status/2072297085203017898
推出 Raven，一个记忆优先、能自我改进的智能体运行框架，底层跑 EverOS，把用户记忆、智能体记忆、工具、skill、策略和执行上下文全放在一起。它最关键的循环原语是：跑成功的工作流会变成可复用的智能体模板，于是系统是靠已经验证有效的东西不断攒能力，而不是每个任务都从头再来。

💡#11

@algoxstonk
https://x.com/algoxstonk/status/2072389899396034885
开源了 blcli，一套在 3000 万以上用户规模上实战检验过的智能体基础设施栈，让编码智能体能通过代码、PR、dry-run 和确定性的 apply 流程去管理整套云基础设施。他的论点很尖锐：智能体只会搭玩具级基础设施，不是因为它搞不定真实系统，而是因为真实基础设施需要海量的专家上下文，所以 blcli 把这些生产知识以代码优先的形式打包好，让智能体能读、能推理、能在 18 个月的迭代周期里安全地操作。

💡#12

@anton_iades
https://x.com/anton_iades/status/2072396614287962156
发布了 Heuresis，一个可组合的框架，把编码智能体和任意搜索算法塞进一个灵活的循环里，专门用来提升那些做新颖 AI 发现的 Auto Research Agent 的探索能力。它盯的正是大多数 autoresearch 方案投入不足的那部分——不只是把实验跑起来，而是聪明地去搜索「该试什么」的空间。

💡#13

@Dinosn
https://x.com/Dinosn/status/2072238179805962355
挖出了 anti-autoresearch，一个站在 reviewer 一侧的诚信取证工具：别一上来就信一篇 autoresearch 论文。它跑自洽性和造假检查、给出一个确定性的裁决，一共 61 个信号，其中 46 个是横跨 A 到 H 各家族的诚信作弊模式。在 autoresearch 产出泛滥的当下，这是一个必要的对冲——一个专门审计其他循环的循环。

💡#14

@SwishMoe
https://x.com/SwishMoe/status/2072303928180416527
介绍了 autoresearch-explorer：一个 Qwen3-8B 的 GRPO 智能体，学的是哪些文档块值得打开、以及在预算约束下怎么作答——训练的是模型对工作流的判断力，而不只是把提示词写得更好。他还并行搭了一个研究文档版和一个金融文档版，方向一致：靠一个循环学出领域专用的判断模型，而不是靠人手把规则写死。

💡#15

@JustinAngel
https://x.com/JustinAngel/status/2072401192907612481
提出了一个新的 autoresearch benchmark，针对 NanoGPT speedrun，分三档——带 arxiv、带互联网、什么都不带。早期发现：Claude 在拒答和 token 用量上领先，Codex 不拒答但结果相近，而 Kimi K2.5 用的 token 最少。最耐人寻味的元结论是：所有进步都来自复用已有技术，虽有一些新颖的改造，但没有一项是真正全新的技术。

💡#16

@doronkatz
https://x.com/doronkatz/status/2072353986594898331
一份对 Perplexity Brain 的深度运营剖析，观点是关键不在它记住了什么，而在它记住的是「智能体的工作做了什么、哪些成了哪些败了」，再连夜精炼成一张上下文图谱（重复任务上正确率加 25%、召回加 16%、成本减 13%）。他把智能体记忆从一个 UX 功能重新定义成一个系统层面：有版本、可回滚、有审计轨迹、还有成本模型——并给出一份五点清单（来源可追溯、保留与遗忘、归属权、成本模型），主张把自我改进的记忆循环当成基础设施来对待。

💡#17

@vadwarp
https://x.com/vadwarp/status/2072336532564836861
在搭一个自我改进的循环，让一个自主智能体把自己的源码当成工作空间——学习、记忆、最终能自己改自己——他的论点是 Opus 4.8 以上的模型只要精心设置，是有能力做自我分析的。他参考了几篇近期论文（A Self-Improving Coding Agent、Darwin Gödel Machine、HyperAgents），在正式文章之前先放出一批信息图，文章会讲他第一个真实世界实验的结果。

💡#18

@0thernet
https://x.com/0thernet/status/2072284840121286793
受够了用别人的 harness 和 IDE，他在一个通宵会话里（晚上 11 点干到凌晨 4 点半）自己搓出了一个能自我改进的编码智能体加应用。它已经嵌进了他们的仓库，复用的还是一个尚未公布的产品的同一套技术栈——这是一个小小的佐证，说明如今搭一个定制的自我改进 harness 能快到什么程度。

💡#19

@Ivory_Towerz
https://x.com/Ivory_Towerz/status/2072464516546252892
细致地拆了长时运行智能体的 Hermes token 经济学：大头成本不来自你有意发起的对话，而来自后台进程、上下文膨胀，以及那些每一轮都默认加载 90 多个 skill 和完整工具 schema 的设置。他给的 10 条具体削减措施——后台任务用便宜的辅助模型、把子智能体路由到更便宜的模型、更激进的压缩阈值、砍掉用不上的 skill、开启按需的工具搜索——就是那层实操调优，能在保留 auto-memory 的同时把自我改进循环的成本压住。

💡#20

@ariccio
https://x.com/ariccio/status/2072322063449080156
指出一个还没人在用的智能体循环：GPT-5.5 Codex 很擅长写各种静态检查，所以当你观察到一个问题时，让它写一个静态检查，再让 Codex 把这个检查揪出来的其他所有实例都修掉，最后把它接进你的 git hook 或 CI/CD。一个漂亮的自我强化循环，每一个被观察到的 bug 都变成一道永久的护栏。

💡#21

@hrswatigupta
https://x.com/hrswatigupta/status/2072313463465279523
介绍了 AxDafny，它用一个智能体循环，让 Dafny 验证器充当老师：生成代码和证明、跑过验证器、哪里不过就修哪里。这是一个循环带着真正外部、无歧义裁判的干净例子——那个 verifier——而这正是让它能自主跑起来的关键所在。

💡#22

@PixelRainbowNFT
https://x.com/PixelRainbowNFT/status/2072414229412651321
开源了 DwarfStar DS4 面板，内置一个 MCP server，让处在智能体循环里的模型能用编程方式驱动整个面板：启动引擎、跑 benchmark、看指标、调一个配置档、重跑、再迭代。模型实际上能对着自己的运行时来训练、调优、测试自己——一个自调优的循环，DeepSeek4 可以调 DS4 自己的设置。

💡#23

@julie_bush
https://x.com/julie_bush/status/2072211761781223492
为 Hermes Agent 黑客松做了 Cursus Publicus，回应 Patrick Collison 想要一个 LLM 工作流工具的需求：文件、上下文、存好的提示词、编码智能体、编译好的产出、可分享的结果。它是一个「给智能体用的邮局」——底层是 NVIDIA Nemotron 3 Ultra 上的免费 AI、Hermes 智能体、Stripe 支付，外加 loop、autoresearch、记忆和回执。

💡#24

@eliebakouch
https://x.com/eliebakouch/status/2072202622027833618
在准备会议幻灯片时，他让 Claude 改一下自己 autoresearch 图表的颜色，结果被安全过滤器拦了下来——「一切都很好 :)」。一个小但很说明问题的摩擦小插曲：一个正在展示 autoresearch 工作的研究者，被提醒安全分类器正在误伤这些完全无害、只是沾了点 autoresearch 边的请求。

📡 生态产品雷达

生态产品雷达
Karpathy 的 autoresearch 模式是这周的引力中心，几乎每一场认真的循环讨论都会提到它。Hermes 和 OpenClaw 反复出现，是大家用来往上搭循环的常驻智能体 harness；而 Claude Code 和 Codex 则是对抗式流水线里默认的 builder/reviewer 搭档。Obsidian 一次次冒出来，充当自我改进型第二大脑循环的记忆底座，而 Perplexity Brain 是本周被讨论最多的产品化记忆循环。框架这一侧，EverOS/Raven、blcli、Heuresis 和 darwin-agents 都把自己定位成循环或自我改进的基础设施，而 DeepSeek、Qwen、Kimi K2.5 则反复作为大家塞进这些循环里跑的模型出现。

← 上一篇

超级用户日报: 2026年7月3日

灵感雷达: 2026年7月3日

← 返回所有文章

加载中...

Loop 日报: 2026年7月3日

相关文章

评论