2026年5月3日loop

Loop 日报: 2026-05-04

💡#1

5月2日的autoresearch收成不多但方向一致：agentic loop正悄悄从"很酷的demo"升级成"承重基础设施"。一篇新论文提出了按需扩张和收缩层级的递归multi-agent系统。Codex的/goal命令让agent连续跑20轮，由judge模型判断目标是否完成。WhatsApp原生界面让你从手机部署OpenClaw或Hermes跑任务。还有另一篇论文捅破了SWE-Bench Verified的榜单——一旦把任务突变成开发者实际使用聊天助手的方式，agent能力被高估了50%以上。水面下的信号是：人们停下model-vs-model的撕逼，开始认真做loop架构本身。

@Xander_zzzzz
https://x.com/Xander_zzzzz/status/2050592386791670095
ReMAS（递归multi-agent系统）这篇论文提出了让agent层级按需自动生长和收缩，不再人工接线。今天多数agent框架都是spin up一个固定班底——planner、coder、critic——然后用静态规则连起来；ReMAS把整个系统当成一个递归社会，父agent生成专门的子agent、分发任务、聚合结果。一个学到的controller决定在算力预算下何时扩展深度、何时剪枝。在难的多步推理benchmark上，对扁平multi-agent baseline的领先幅度随任务难度增加而扩大。背后的更大问题：把LLM agent当作自组织的组织架构而不是静态pipeline，能走多远？

💡#2

@JulianGoldieSEO
https://x.com/JulianGoldieSEO/status/2050536610186551327
Codex的/goal命令是一个单行的自主loop触发器。打个目标，agent就开始干，每轮结束有judge模型检查完成情况，默认跑20轮。可以pause、resume、clear目标。合上电脑明天接着干。用例从内容和研究延伸到代码修复和整站搭建。架构上有意思的是——单独的judge模型来仲裁完成情况，是约束失控loop最简单实用的边界。

💡#3

@joeshajan
https://x.com/joeshajan/status/2050491998470304081
OpenClaw和Hermes Agent很强但部署起来很痛苦。Clawtis是一个零配置部署方案，从WhatsApp直接用。发条消息、选OpenClaw或Hermes、开始跑任务。这一步有意思的是把"远程机器上的agentic loop"做成多数人已经打开的聊天客户端可用——当上车门槛降到"发条短信"，autoresearch作为个人习惯的可达面积就完全不一样了。

💡#4

@LearnWithBrij
https://x.com/LearnWithBrij/status/2050598026834522510
production里完整agentic loop的九步拆解：用户任务输入、任务规划器（ReAct/CoT分解）、工具选择（registry查询，幻觉工具名是隐性失败模式）、工具执行（N次LLM调用+N次tool round trip是延迟来源）、观测解析（grounding步骤，很多agent跳过）、memory更新（短期in-context加长期外部）、re-planning菱形决策点（loop还是结束的二元选择）、响应合成、输出。论点是：第4步和第7步——工具执行延迟和loop终止逻辑——共同决定了agent在规模上80%的可靠性和成本。多数pilot看起来都OK，多数production部署正好在这两处崩。

💡#5

@hsnice16
https://x.com/hsnice16/status/2050546010234257824
一个agent skill，在本地环境给codebase打分，推荐当前工作目录里哪个模型表现更好。无服务依赖，可离线工作。框架很有意思：不是猜该用哪个模型，而是给agent一个测量你仓库的skill来路由。模型选择从per-developer的习惯变成per-repo的确定性决策。

💡#6

@0xYdv_James
https://x.com/0xYdv_James/status/2050588732533743672
端到端测试Kite Passport配WSL+Codex：创建有预算和per-tx限制的spending session，passkey flow审批，Codex作为执行层跑，session里调用Exa、Firecrawl、fal.ai。有意思的不是工具——是控制模型：身份→session→权限→执行。agent不会猜也不会反复问，严格在用户定义的边界（预算、时间、范围）里运行。让自主loop负责任的边界，是permissioned agent execution的基础设施。

💡#7

@suggestionii
https://x.com/suggestionii/status/2050450487778902504
spawnr是一个CLI，让你的agent搜索ERC-8004注册表，雇佣有用的、活的、链上验证过的agent。agent-of-agents模式的发现机制一直是缺失的一块——没有它你只能在配置时手工接线。spawnr把"现在帮我找一个能干X的agent"变成runtime调用。

💡#8

@musiol_martin
https://x.com/musiol_martin/status/2050631403897852372
新论文称SWE-Bench Verified把agent能力高估了50%以上——当任务被突变成开发者实际使用聊天助手的方式时。半个编码agent榜单是带额外步骤的虚构。对autoresearch的含义：如果你的loop建在被benchmark调过的模型上，你可能是在解题不是在解真实的长程任务。如果你在校准agentic stack里要放哪些模型，这篇值得读。

💡#9

@uncertainsys
https://x.com/uncertainsys/status/2050608580877758517
本地视频通话和Hermes agent。长跑个人agent的界面正在收敛到chat+voice+video——不只是CLI。当loop跑几个小时、产出复杂工件时，check in的媒介从"盯着终端"变成"和agent打个简短的电话"。

📡 生态产品雷达

生态产品雷达

Codex——/goal命令和judge模型loop模式现在是OpenAI阵营被复制最多的autoresearch原语。

OpenClaw——local agent的默认选项，现在通过Clawtis嵌入WhatsApp。

Hermes Agent——几乎每个多agent本地配置里都和OpenClaw成对出现，现在还支持本地视频通话。

Kite Passport——agent的permissioned execution层，passkey审批，按预算/时间/范围绑定session。

Claude Code——这里描述的几种模式背后的隐性底座，尤其在搭配能给codebase打分挑模型的skill时。

ERC-8004 / spawnr——链上agent注册表和发现原语。

SWE-Bench Verified——作为榜单受到挑战，作为校准工具有用，不再是过去那种被供着的可靠性oracle。

← 上一篇

超级用户日报: 2026-05-04

灵感雷达: 2026-05-04

← 返回所有文章

加载中...

Loop 日报: 2026-05-04

相关文章

评论