2026年5月3日loop

Loop 日报: 2026-05-04

💡#1
5月2日的autoresearch收成不多但方向一致:agentic loop正悄悄从"很酷的demo"升级成"承重基础设施"。一篇新论文提出了按需扩张和收缩层级的递归multi-agent系统。Codex的/goal命令让agent连续跑20轮,由judge模型判断目标是否完成。WhatsApp原生界面让你从手机部署OpenClaw或Hermes跑任务。还有另一篇论文捅破了SWE-Bench Verified的榜单——一旦把任务突变成开发者实际使用聊天助手的方式,agent能力被高估了50%以上。水面下的信号是:人们停下model-vs-model的撕逼,开始认真做loop架构本身。

@Xander_zzzzz
https://x.com/Xander_zzzzz/status/2050592386791670095
ReMAS(递归multi-agent系统)这篇论文提出了让agent层级按需自动生长和收缩,不再人工接线。今天多数agent框架都是spin up一个固定班底——planner、coder、critic——然后用静态规则连起来;ReMAS把整个系统当成一个递归社会,父agent生成专门的子agent、分发任务、聚合结果。一个学到的controller决定在算力预算下何时扩展深度、何时剪枝。在难的多步推理benchmark上,对扁平multi-agent baseline的领先幅度随任务难度增加而扩大。背后的更大问题:把LLM agent当作自组织的组织架构而不是静态pipeline,能走多远?
💡#2
@JulianGoldieSEO
https://x.com/JulianGoldieSEO/status/2050536610186551327
Codex的/goal命令是一个单行的自主loop触发器。打个目标,agent就开始干,每轮结束有judge模型检查完成情况,默认跑20轮。可以pause、resume、clear目标。合上电脑明天接着干。用例从内容和研究延伸到代码修复和整站搭建。架构上有意思的是——单独的judge模型来仲裁完成情况,是约束失控loop最简单实用的边界。
💡#3
@joeshajan
https://x.com/joeshajan/status/2050491998470304081
OpenClaw和Hermes Agent很强但部署起来很痛苦。Clawtis是一个零配置部署方案,从WhatsApp直接用。发条消息、选OpenClaw或Hermes、开始跑任务。这一步有意思的是把"远程机器上的agentic loop"做成多数人已经打开的聊天客户端可用——当上车门槛降到"发条短信",autoresearch作为个人习惯的可达面积就完全不一样了。
💡#4
@LearnWithBrij
https://x.com/LearnWithBrij/status/2050598026834522510
production里完整agentic loop的九步拆解:用户任务输入、任务规划器(ReAct/CoT分解)、工具选择(registry查询,幻觉工具名是隐性失败模式)、工具执行(N次LLM调用+N次tool round trip是延迟来源)、观测解析(grounding步骤,很多agent跳过)、memory更新(短期in-context加长期外部)、re-planning菱形决策点(loop还是结束的二元选择)、响应合成、输出。论点是:第4步和第7步——工具执行延迟和loop终止逻辑——共同决定了agent在规模上80%的可靠性和成本。多数pilot看起来都OK,多数production部署正好在这两处崩。
💡#5
@hsnice16
https://x.com/hsnice16/status/2050546010234257824
一个agent skill,在本地环境给codebase打分,推荐当前工作目录里哪个模型表现更好。无服务依赖,可离线工作。框架很有意思:不是猜该用哪个模型,而是给agent一个测量你仓库的skill来路由。模型选择从per-developer的习惯变成per-repo的确定性决策。
💡#6
@0xYdv_James
https://x.com/0xYdv_James/status/2050588732533743672
端到端测试Kite Passport配WSL+Codex:创建有预算和per-tx限制的spending session,passkey flow审批,Codex作为执行层跑,session里调用Exa、Firecrawl、fal.ai。有意思的不是工具——是控制模型:身份→session→权限→执行。agent不会猜也不会反复问,严格在用户定义的边界(预算、时间、范围)里运行。让自主loop负责任的边界,是permissioned agent execution的基础设施。
💡#7
@suggestionii
https://x.com/suggestionii/status/2050450487778902504
spawnr是一个CLI,让你的agent搜索ERC-8004注册表,雇佣有用的、活的、链上验证过的agent。agent-of-agents模式的发现机制一直是缺失的一块——没有它你只能在配置时手工接线。spawnr把"现在帮我找一个能干X的agent"变成runtime调用。
💡#8
@musiol_martin
https://x.com/musiol_martin/status/2050631403897852372
新论文称SWE-Bench Verified把agent能力高估了50%以上——当任务被突变成开发者实际使用聊天助手的方式时。半个编码agent榜单是带额外步骤的虚构。对autoresearch的含义:如果你的loop建在被benchmark调过的模型上,你可能是在解题不是在解真实的长程任务。如果你在校准agentic stack里要放哪些模型,这篇值得读。
💡#9
@uncertainsys
https://x.com/uncertainsys/status/2050608580877758517
本地视频通话和Hermes agent。长跑个人agent的界面正在收敛到chat+voice+video——不只是CLI。当loop跑几个小时、产出复杂工件时,check in的媒介从"盯着终端"变成"和agent打个简短的电话"。
📡 生态产品雷达
生态产品雷达

Codex——/goal命令和judge模型loop模式现在是OpenAI阵营被复制最多的autoresearch原语。

OpenClaw——local agent的默认选项,现在通过Clawtis嵌入WhatsApp。

Hermes Agent——几乎每个多agent本地配置里都和OpenClaw成对出现,现在还支持本地视频通话。

Kite Passport——agent的permissioned execution层,passkey审批,按预算/时间/范围绑定session。

Claude Code——这里描述的几种模式背后的隐性底座,尤其在搭配能给codebase打分挑模型的skill时。

ERC-8004 / spawnr——链上agent注册表和发现原语。

SWE-Bench Verified——作为榜单受到挑战,作为校准工具有用,不再是过去那种被供着的可靠性oracle。
← 上一篇
超级用户日报: 2026-05-04
下一篇 →
灵感雷达: 2026-05-04
← 返回所有文章

评论

加载中...
>_