2026年7月5日loop

Loop 日报: 2026年7月5日

今天的时间线反复被两个词占据：harness（承载模型的执行框架）和 loop（循环）。讨论的重心早已不是"看这模型能干啥"，而是转向了"谁掌握着运行模型的那套东西"。有人把 Fable 和各种开源模型挂在自己的构建系统上跑通宵自动研究循环，Shopify 直接开源了一个 Karpathy 风格的机器学习研究员 agent，还有一批单打独斗的操盘手炫耀自己的生意——真正干活的是 agent 循环而非人本身。最值得玩味的转变不是模型变聪明了，而是大家想明白了一件事：模型从来就不是难点，循环才是。

💡#1

@svpino
https://x.com/svpino/status/2073024710242382106
今天转发量最高的循环入门贴，核心就四行 shell。他把 Claude Code 上最精简的 agentic 循环拆给你看：claude -p 带上提示词，用 --allowedTools 提前圈定它能碰的范围，再用 --max-turns 防止它无休止地磨。真正的重点落在结尾——验证环节才是一切。写清楚"agent 怎么知道自己干完了"这个判断条件，如今吃掉了他所有的时间，而他的工作已经悄悄从写代码变成了定义"什么叫做对了"。

💡#2

@wearerandomlabs
https://x.com/wearerandomlabs/status/2073170271532720457
他们在 Slate 里上线了"程序"，这个框架很聪明：Autoresearch、/goal、Deep Research 都不再是喂给你的现成功能，而是你能自由拼装的程序。你用可复用的组件亲手搭出自己的 agent 编排，挂在现有订阅上、配任何模型都能跑。这正是当下四处都在发生的同一个动作——把 agent 循环从黑盒变成一套乐高积木。今天所有循环工具类的帖子里，就数它吸走的注意力最多。

💡#3

@resdegen
https://x.com/resdegen/status/2072998802143723748
这周最清醒的战略解读：编码 harness 是 AI 技术栈里被严重低估的一层，而它刚刚变成了地缘政治的战场。阿里巴巴下令 7 月 10 日前卸载 Anthropic 产品，Meta 内部封禁 Claude Code 和 Codex，智谱推出了给 GLM 用的 ZCode。他的论点是：harness——也就是 agent 循环、工具、shell 访问、上下文管理——才是模型真正兑现成经济价值的地方，而各大实验室没法让自己的 harness 做到模型无关，否则就等于砍掉赖以为生的 token 收入。这道裂缝，恰恰是独立开源 harness 即将变得重要的原因。

💡#4

@0xCristal
https://x.com/0xCristal/status/2073024681058426906
一个人在同一个 Claude 侧边栏里同时经营五门生意，每门都是各自独立的 agentic 循环，每小时读取输入、推进工作，全程无人盯着。当 Sonnet 5 在 agentic 榜单上逼近 Opus 4.8、价格却低了一大截，他什么都没重建。他一次性把五个跑通了的循环底层的模型全换掉，悄无声息地给整家公司重新定了价。他真正想教的道理是：循环才是资产，模型只是随时可换的零件。

💡#5

@regent0x_
https://x.com/regent0x_/status/2072991016458576191
一间六位数收入的店铺，工位空空如也，只有一台平板和一台书本大小的迷你主机。这台机器跑着本地 agent 循环，同时接通 Shopify、Amazon 和 Etsy，每隔几分钟查一次库存，在东西卖光之前就把给供应商的补货单草拟好。他管它像老板给员工发短信："把连帽衫补货"，搞定。他声称这套东西一个月砍掉了大约 5000 美元的开销——一个库存经理、一个上架助理、几份分析工具订阅，全被压进了这台不吭声的盒子。

💡#6

@iam_elias1
https://x.com/iam_elias1/status/2073141325353164853
ViMax 是这套循环范式从代码跳进电影的例子。它不是让一个模型直接吐出 10 秒片段，而是用四个 agent，各自扮演真实剧组的角色：编剧把你一句话变成结构化剧本，导演设计分镜级别的画面，制片人保证角色在多场戏里的一致性，生成器负责最后成片。出自香港一所大学的实验室，MIT 协议开源，五周涨了 10800 个 star。它的主张和当年重塑编码的那句一模一样：下一次质量飞跃不靠更大的模型，而靠更好的编排。

💡#7

@ShopifyEng
https://x.com/ShopifyEng/status/2073150735580348623
Shopify 开源了 Tangent，一个自主的机器学习研究员 agent，在他们的 Tangle 实验平台之上跑完整的 Karpathy 式自动研究循环。这不是演示：他们真拿它去改进了商品搜索排序和相同报价合并的线上模型。当一家生产型公司把自己的排序模型交给一个会读结果、自己迭代的 agent，这就是自动研究正在走出实验室的最明确信号。

💡#8

@Voxyz_ai
https://x.com/Voxyz_ai/status/2073144588307489031
今天最具体的自动研究成果：superpowers 的作者把 Fable 当作自动研究循环，挂在自己的构建系统上跑了大约 36 小时，实打实地改善了自己的指标，而且这个循环连自己的测量 bug 都逮住了——它对一个可疑的 -74% 起了疑，结果查出真实值其实是老老实实的 -41%。文章里还顺走了他最好的提示词，比如一个"盲点扫描"，让模型在交付错东西之前先把你没意识到的未知项抖出来。一个模型在运行中途揪出自己的测量仪表错误，这一点值得反复咀嚼。

💡#9

@stretchcloud
https://x.com/stretchcloud/status/2072874217797029892
一张把自我改进从研究趣闻走向拿到融资的基础设施的清晰地图。Sakana 在东京正式成立了 RSI Lab，整个使命就是用 AI 重新设计 AI 的开发方式；他们的 Darwin Godel Machine 会改写自己的 Python 代码库、跑测试、留下有效的部分，把 SWE-bench 从 20% 推到了 50%。他还把周边背景码齐：Recursive Superintelligence 融了 6.5 亿美元，Anthropic 警告说自我迭代来得比预想的快。他一直在等的那个信号——实验室开始围绕自我改进搭生产级基础设施而不只是发论文——刚刚翻了过来。

💡#10

@corinthian_xyz
https://x.com/corinthian_xyz/status/2073151239886401987
LangChain 的 CEO 拉着自家工程师一起讲他们怎么造生产级 agent，抖出来的真相是：最好的 agent 其实偷偷是个团队。那是一张组织架构图：一个昂贵、能干的主 agent 把活派给一群更便宜、更快的子 agent，还有专门读完整 trace 的筛查员、一个复核结果的验证员，让主 agent 永远不会被上下文淹死。他们承认的最离谱的一点：这个 agent 靠自己的 trace 运行、自己修自己，一个他们本以为没用、如今却离不开的自我改进循环。

💡#11

@altryne
https://x.com/altryne/status/2072923996409233703
Weights & Biases 把 Aria 推到了正式版，一个住在你工具链里的自动研究 agent，读你的 trace、debug 损失曲线、自己更新你的提示词。他一句话的总结正是今天一整天的主题：评测循环开始自己闭环了。当那个度量你模型的东西同时也在改写用来改进它的输入，你就造出了一个不再需要你夹在中间的循环。

💡#12

@_Matt_Bell
https://x.com/_Matt_Bell/status/2072981784246038555
他描述的这套配置是两个人加 38 个 AI agent，七天搭出来，如今由一个 AI 管理团队来打理。一个 CEO agent 不停地调各个 agent 的表现、把记忆保持最新，而底下的 agent 们持续自我改进；收件箱靠营销和销售 agent 自动拉来每天的新线索。他很诚实地承认：万一模型供应商挂了，没有任何后备方案——这正是每一个所谓全自动组织故事底下藏着的真实脆弱点。

💡#13

@hiloopai
https://x.com/hiloopai/status/2072871657417707816
他们把 agent 对准 Karpathy 的自动研究基准，打出了一个 SOTA 成绩，现在正在搭基础设施把自动研究规模化，托管或本地部署皆可，去解团队最难的问题。帖子很短，但是个实打实的数据点：Karpathy 的自动研究基准正悄悄成为认真做基础设施的团队用来衡量自己的标尺。值得盯着看"规模化自动研究"会不会真的长成一个产品品类。

💡#14

@mechoorial
https://x.com/mechoorial/status/2072842252033175728
一份真正有用的 Autodata 拆解，这个框架把合成训练数据的生成变成了一个持续自我改进的 agentic 循环。agent 自己出练习题，测量学生模型学到了多少，再把难度自动调进一个"金发姑娘区间"——不太简单也不至于难到做不出来，学习效率最高的那个甜蜜点。他老实点出的隐忧是：整个循环很脆，仍然依赖人来挑对弱解题器、强解题器和裁判模型才能维持平衡。

💡#15

@jiqizhixin
https://x.com/jiqizhixin/status/2072868177932100058
普林斯顿和上海交大的 Eevee 是给自我改进 agent 用的测试时提示词学习，能在不重训练的情况下现场自适应。它不会在混合数据集的工作流上卡壳，而是用一个路由器给进来的任务分簇，让路由器和提示词在交替循环里一起进化。数字很响：相比 GEPA 和 ACE 提升高达 37%-48%，在 Qwen3-4B 和 DeepSeek-V3.2 上涨了 10-24 个点。这是把自我改进循环一路压到了提示词这一层。

💡#16

@TAMPICTG87
https://x.com/TAMPICTG87/status/2073099126833828337
一份对 Nous Research 的 Hermes Agent 的彻底拆解——这个开源 harness 这周被反复引用。它把 harness 工程产品化了：自带自我改进的学习循环、三层记忆、技能系统，外加 40 多个原生工具和 MCP 支持，全套能在一台便宜 VPS 上用不到 500MB 跑起来。最锋利的是那段批评：本地存储加上记忆不过期，自我改进循环会漂移，很容易把"执行效率在收敛"误当成"目标是对的"，所以得有人一直盯着目标定义和负向约束。

💡#17

@CDGalpha
https://x.com/CDGalpha/status/2073019110641004736
一篇讲 Hermes Agent 记忆机制的清晰又诚实的教程。两个 markdown 文件，MEMORY.md 存事实、USER.md 存你是谁，每次开新会话都载入上下文，还有一个后台管理员每周给你的技能打分，合并重叠的、剪掉死掉的。他最有用的提醒是那条所有人都会跳过的：学习循环总倾向于假设自己干得不错，所以你得纠正它，并且对任何重要的东西打开写入审批。自我改进不等于自主放养。

💡#18

@vladuah
https://x.com/vladuah/status/2073079532681093605
一套他号称上个月赚了 1.2 万美元的 Hermes Agent 配置，围绕会自我压缩的文件搭起来：SOUL.md 一次性定下人格，MEMORY.md 和 USER.md 是有容量上限、会自我总结的笔记本，攻克难题后验证过的解法被存成可复用的 YAML playbook。一支后台清理小队负责删重复和过期的笔记。收入数字真假不论，这套模式——用例子教、用大白话排任务、让一个 agent 复利滚成一支小团队——才是可复用的那个点子。

💡#19

@0xxfeynman
https://x.com/0xxfeynman/status/2073112035072557093
对"堆 token"式 agent 循环最犀利的反驳。他的论点是：那位朋友花了 200 美元的单次运行之所以炸了，不是因为选错模型或缺路由，而是因为那个循环压根没有一个由 agent 之外的东西来判定的硬退出条件。就像 Cookie Clicker，被优化的那个指标没有外部天花板，所以它永不停机。值得记下的一句：任何循环里最贵的那个 token，是本该收尾却又开了一轮的那一轮里的第一个 token。

💡#20

@leanxbt
https://x.com/leanxbt/status/2073129031059271770
把 ReAct 论文当作 agent 循环蓝图的一份精炼讲解：在同一条流里交错推理和行动，用思考去规划、用行动去触碰环境、用观察去为下一步思考落地，循环到给出答案为止。他抽出来的洞见很实用：推理和行动没法分开，只想不做会幻觉，只做不想是瞎干。在 ALFWorld 上，它只用一两个示例就把模仿学习和强化学习方法绝对值甩开了 34%。

💡#21

@GoCocoaAI
https://x.com/GoCocoaAI/status/2073153073027911799
从安全视角审视这波 agent 循环工具热，把 Pi、Goose、OpenCode 归为三个各不相同、且基本不设防的攻击面。Pi 从设计上就没有内置权限模型；OpenCode 默认是一个对你仓库有读写执行全权的构建 agent，这就让一段精心构造的 PR 描述成了针对 agent 循环的现实供应链攻击向量——而这个循环分不清哪些是对抗性输入、哪些是正常上下文。就算把警报语气全剥掉，他的观点依然成立：把自主循环塞进没有沙箱的开发环境，是一种真实、又不起眼的风险。

💡#22

@suraj_sharma14
https://x.com/suraj_sharma14/status/2072968591113126372
关于"循环工程"的一个清爽框架：世上不是只有一个循环，而是三个。Agent 循环里，AI 写代码、测代码、修代码。开发者循环里，你打磨产品、把 spec 磨锋利。用户循环里，真实用户告诉你到底什么才重要。第一个造出软件，第二个造出产品，第三个造出公司——大多数只优化第一个循环的人，都在纳闷自己的产出为什么变不成一门生意。

💡#23

@talirezun
https://x.com/talirezun/status/2072940621917016279
关于 agent 循环经济学最脚踏实地的看法。这些配置他都亲手跑过：只有当一份固定订阅坐在循环里、而不是按次计费的 API，这笔账才算得过来，因为 agentic 循环天生吃 token，一旦一轮触发几百次调用，按 token 付费会当场让你破产。他还拿 OpenClaw 配 DeepSeek V4 当大脑试了一把，对付很多任务真的够用。他的结论最具战略性：想锁定 harness 随你便，但锁定模型才是真正的风险所在。

💡#24

@AndreyK09474778
https://x.com/AndreyK09474778/status/2072885615230627997
一个不大但很实在的交付：一个多 agent 循环，一个 agent 负责监控、一个负责起草、一个负责路由，零手工交接。他警告的那个坑正是坑住所有人的那个——agent 不会大声报错，它们只会不声不响地生产出自信满满的垃圾然后接着往下走，而你的流水线看起来一切正常。他的解法是在每个生成步骤后面挂一个轻量批评家 agent，唯一的职责就是把低于置信阈值的输出打回去。一个持怀疑态度的节点，一周内逮到的坏输出比几小时的提示词调优还多。

💡#25

@SOntheotherside
https://x.com/SOntheotherside/status/2073118500844122134
一份难得诚实的本地 agent 循环现状汇报——它想取代云端工作。它跑着 5 个模型，把代码任务路由给一个 7b、把写 spec 的任务路由给一个 32b，也确实完成了一些能通过 make check 的真实任务，但它仍然只是个单发调度器：没有网络搜索，没有多步迭代，还不会用工具。离"本地能干云端能干的一切"的差距，是一个带工具调用的像样 harness，而他已经把这个当成关键路径任务在搭了。这就是本地自主那团混乱的中间地带真实的样子。

💡#26

@rxNxkolai
https://x.com/rxNxkolai/status/2072866167404773680
他造了 quorum，一个批评家裁判组成的评审团，实时盯着一个 agent 循环，一旦它开始幻觉就当场叫停。这正是今天时间线上四处独立冒出来的同一个想法——agent 没法可靠地知道自己什么时候错了，所以得有个循环之外的东西来管。工具很小，但它是那个大家反复绕回的模式的一个具体例子：验证和停止条件，正在变成技术栈里自成一层的东西。

💡#27

@0xCodez
https://x.com/0xCodez/status/2073055037727629530
他挖出了 Anthropic Managed Agents 团队做低成本 agentic 循环的配方：一个 Dreamer 检视执行者的 transcript，把学到的东西写进记忆，再为下一轮挑出合适的记忆。这是对那个反复出现的"记忆加反思"循环的精炼描述——agent 会随时间变便宜，因为它不再一遍遍地重解同一个问题。他把它包装成一种把编码成本砍掉 60% 以上的办法，这种说法值得你自己动手验一验，而不是照单全信。

📡 生态产品雷达

生态产品雷达

Claude Code — 依旧是大家搭循环的默认 harness，也是衡量其他一切的参照系。
Hermes Agent（Nous Research）— 本周被引用最多的开源 harness；自我改进循环、三层记忆、技能系统。
Slate — 把 Autoresearch、/goal、Deep Research 变成你自己编排的可组合"程序"。
Fable — 大家挂在自己构建系统上当通宵自动研究循环来跑的那个模型。
GLM — 开发者不断塞进 Claude Code 和其他 harness 里、用来压成本的开源权重模型。
OpenClaw — 自托管 agent 循环的常见答案，越来越多地和更便宜的开源模型搭配使用。

← 上一篇

超级用户日报: 2026年7月5日

灵感雷达: 2026年7月5日

← 返回所有文章

加载中...

Loop 日报: 2026年7月5日

相关文章

评论