2026年5月11日loop

Loop 日报: 2026-05-12

今天有两条暗线。一条，自我改进闭环的成本开始被量化了：一位用户把 8 小时的 agent devops 会话压到 3 小时，每次 plan 执行省掉约 3 亿 token，方法就是把 auto-research 接到 Hermes 的 skill 生成环节里。另一支队伍直接做了一套六阶段端到端自主改进周期，已经把代码库的 29 代演化拍成 3D 可视化。第二条，agentic loop 正在往非编码方向横向扩散——一个 agent 跑遍德州 6,061 个公开数据集做民政查询、一个本地小生意挖掘加自动建站冷推流水线、一个个人生活管家技术栈明确写着不要让 AI 自动发邮件。规律：闭环建在别人的外壳上（Claude / Codex / Hermes），真正分胜负的是上面的编排和下面的记忆。

💡#1

@thebizfixer
https://x.com/thebizfixer/status/2053622052352131378
用Hermes Agent搭了个叫Strati的PM/系统管理员角色，让它接TinyFish搜索接口在生成skill时自动做auto-research。结果devops单次会话从8小时压到3小时，token消耗砍掉76%，每次执行平均省下三亿token。流程是先在Cursor里聊出计划，交给Strati做web检索补漏，然后Hermes Kanban分派多个Cursor CLI worker按依赖关系并行干活，每个任务三道审核。跑完后还会再触发一轮auto-research来反哺skill库，最后一道13维度QA加TestSprite MCP出回归报告。

💡#2

@danielmarinq
https://x.com/danielmarinq/status/2053387052247548283
Nexus在搞一套闭环自改进系统，目标是年底前实现软件生产全流程端到端自动化。每轮迭代分六个阶段：先定架构目标，写中层规格和所有测试基准，再做1到2小时的全自主编码执行，跑完整测试和遥测，复盘时连agent自己的token消耗、上下文爆掉次数都纳入分析，最后基于执行指标和meta指标做自我改进推理。配图是29代代码库的3D演化可视化。

💡#3

@gkisokay
https://x.com/gkisokay/status/2053467830155427942
用Hermes搭了套24小时自跑的agent系统，分两个循环。Auto-think一边盯AI圈最新动态，一边盯自己项目当前状态，由Research agent把证据喂给Dreamer去找值得做的点子。点子通过后Auto-build接手：Main出产品方案，Coder和QA边建边验，每一步留测试和留痕。一个build跑满7天后，Retention agent来判断这玩意儿是留着、继续改、搁置还是直接归档。整个系统跟行业一起复利累积。

💡#4

@aijoey
https://x.com/aijoey/status/2053540454340194485
在DGX Spark上把Gemma 4 26B A4B无审查版跑起来了，GB10 Blackwell加128GB统一内存，模型用NVFP4量化，vLLM容器配DFlash推测解码。小规模测试大概90 tok/s，这速度跑agent循环够用了。作者强调本地AI已经不是下个权重就完事，而是要把整条栈握在手里：模型、量化、kernel、serving、推测、agent loop每一层都得自己调。

💡#5

@DavidOndrej1
https://x.com/DavidOndrej1/status/2053368314391343349
在做AutoResearch新版本，用来迭代测试prompt给任何AI做越狱。关键技巧是把那些有问题的文字塞在一个example.md里对researcher模型完全隐藏，AI只能改外面包着的header和footer。这样split test能无限跑下去，主模型也不会因为合规或伦理问题罢工。算是把autoresearch loop的一个挺野的应用方向。

💡#6

@cyrilXBT
https://x.com/cyrilXBT/status/2053418603756798341
把OpenClaw加Hermes加Paperclip这套开源agent栈类比成员工加记忆加公司。OpenClaw负责执行，读文件浏览网页写代码发邮件这些跨工具的活都能干。Hermes是记忆层，每完成一个任务就评估流程然后沉淀成可复用的skill，会话之间不重置只复利。Paperclip是编排层，同时管多个OpenClaw实例，把任务路由到对应agent。三个加起来就是个不需要人在环里的24小时自改进运作。

💡#7

@frog_omo
https://x.com/frog_omo/status/2053453751864963188
花一个月研究后总结：2026年5月真正能用的AI生活管家栈是Telegram机器人加6刀VPS上自托管的n8n加Claude Sonnet 4.5 API加Gmail Calendar Todoist和Whisper，月成本15到25美元。具体踩坑：Zapier按步骤计费，一个6步agent循环就花6倍钱；Make对多步循环也罚款；Lindy月费50美元还出过用户被多扣550刀的事。原则是draft-only绝不自动发送，理由是EchoLeak零点击注入和Black Hat 2025那个日历邀请劫持Gemini的案例。先做文本triage再加语音todo最后加晨报。

💡#8

@kinwo
https://x.com/kinwo/status/2053336431163302037
做了个自改进agent叫Ouroboros。它会反思已完成的工作、写演化日志、给记忆打checkpoint、把反复出现的模式结晶成新的Agent Skill。开源出来求反馈。算是个人版的Hermes风格自改进循环实验，不是要做框架，但完整地把self-improving loop的几个关键能力都串起来了。

💡#9

@chenzeling4
https://x.com/chenzeling4/status/2053610953703350403
pi-autoresearch是给AI编码agent用的自主实验循环，灵感来自karpathy的autoresearch。流程是抛点子、跑基准、好的留下、回归的回滚。指标包括测试速度、bundle大小、构建时间、Lighthouse分数，还配了实时dashboard。已经6533星了。基本就是把autoresearch模式产品化成了带可视化的工具。

💡#10

@jravinder
https://x.com/jravinder/status/2053506289469214729
在AITX加Codex黑客松做了个TXLookup：在6061个德州公开数据集上跑agent循环。用户用英文提问，agent自己挑对应的portal去查，然后给出带引用的答案。解决的痛点是公共数据虽然公开但普通人根本够不到。挺典型的agent loop非编码应用，把搜索意图翻译成数据集选择加查询，对民间获取civic data是个实用思路。

💡#11

@EvasionLV6
https://x.com/EvasionLV6/status/2053459039661568048
搞了个挺野的自改进实验：一个原本需要12个agent协作才能在第一次跑通的工作流，经过3轮自改进后压缩到只用1个agent就能搞定。Self-improving compounding的效果就是把原来需要群体协作的事压缩进单个更强的agent里。虽然只是一条短推但数据点很具体，给self-improving loop的复利效应提供了一个实测参考。

💡#12

@Wilkont
https://x.com/Wilkont/status/2053519872563245327
发布了SIP（Self-Improving Prompt Protocol），一个agent无关的开源层，在执行前把用户那种模糊的输入转成结构化、带工具感知、带安全约束的agent指令。会自动补上context、可用工具、约束、安全规则、成功判定、验证步骤和输出格式。已经在Cairo里集成，宣称兼容Codex、Claude Code、OpenClaw、各种browser和coding agent。核心论点是未来agent的关键不是模型更强，是agent在执行前先把prompt自己优化一遍。

💡#13

@usr_bin_roygbiv
https://x.com/usr_bin_roygbiv/status/2053307685970276437
一句话观点但密度很高：现在能做的最高阶alpha就是给你自己的harness加模型组合搭autoresearch loop来跑eval。意思是真正能拉开差距的不是换更强的基础模型，而是基于你具体那套栈跑自动化的、eval驱动的改进循环。短推但指向很明确，把autoresearch的优先级摆得很高。

💡#14

@Ghost_gi_m
https://x.com/Ghost_gi_m/status/2053506076809601303
刚发了ghostloop v1.0.0，定位是ROS 2和VLA模型之间缺失的runtime层。包含一个会调工具的agent loop、一个fail-closed的安全管道、以及sim优先的执行机制，专门给embodied AI用。演示里Claude Desktop通过MCP接口加上地理围栏安全管道在驱动一只Franka Panda机械臂。是为数不多把agent loop推到物理机器人而非纯软件场景的案例。

💡#15

@eric_m_freeman
https://x.com/eric_m_freeman/status/2053535908331241520
把两篇论文拼到一起讲guardrails在agent场景下基本是表演。第一篇本地模型在agent loop里配RAG加结构化prompt加历史压缩加反思机制，Llama3.1 70B能拿下83%的Linux提权漏洞，连7B/8B小模型在指导下也能打67%，意味着进攻端在本地化、便宜化。第二篇做的是激活层的latent检测，关注agent对话轨迹在residual stream里的扰动模式（作者叫adversarial restlessness），合成数据93.8%、混合集89.4%检出率假阳性2.4%。结论是agent的防御必须看时间序列轨迹和内部状态，不能只在门口拿文本分类器拦。

💡#16

@akshay_pachaar
https://x.com/akshay_pachaar/status/2053480693733433797
把Claude Code的架构拆成六层来看，中间是一个故意做得很简单的主agent loop（感知-动作-观察）。细节挺密：三层context压缩器在92%阈值触发、prompt cache对稳定前缀只收10%费用、subagent之间走Redis pub/sub加状态机协议（IDLE-REQUEST-WAIT-RESPOND）、自治看板用atomic lock协调、每个任务都有独立worktree隔离并自动检测merge冲突。核心观点是这不是个聪明的循环，而是个dumb loop外面包了套聪明的harness在调度。

💡#17

@TechAIDailyNews
https://x.com/TechAIDailyNews/status/2053479249223520630
Anthropic放出了dreaming的research preview：agent在会话之间回看过去的行为找模式、自己改进，适合那种长时间跑的工作流，不用人不断重训。给的实战建议是把dreaming和rubric评分配合用，在编程和金融agent上能把drift降低3倍以上（Anthropic自家测的数）。算是接上了Karpathy说的绕过模型短板这一脉。

💡#18

@burkov
https://x.com/burkov/status/2053269138580140320
回看2023年ICLR那篇Google Research的ReAct论文，说现在所有agentic AI的血统都是从那儿来的。核心发现是只用几个人工写的thought-action交错示例就行，Wikipedia问答任务的幻觉率从纯CoT的56%直接掉到几乎为零，在家居模拟和在线购物两个基准上比训练了几万条数据的模仿学习和强化学习基线分别高出34和10个点。三年半过去，thought-action-observation这个循环还是所有tool agent的基本骨架。

💡#19

@overfitted_
https://x.com/overfitted_/status/2053436803097436372
指出Anthropic那个MilesDeutscher的portfolio prompt demo实质是把整个CFA分析流程塞进一个agent loop，外加实时数据拉取。意思是Claude Code已经不是IDE了，这是services-as-software的切入点，每次执行都喂回memory loop，Anthropic拿到的不只是席位还有token消耗。同时点GPT-5.5那边还没有相应的orchestrator层能匹敌。

💡#20

@yzg75001
https://x.com/yzg75001/status/2053461095189487883
评GPT-Realtime-2能在跑的过程中自己bootstrap出MCP工具：agent干不了某件事的时候不是直接失败，而是把这个能力造出来留给下次。作者认为这才是自主系统真正的解锁点，把self-improving agent architecture从口号变成了具体机制——不是说越用越聪明，而是缺啥就长啥。

💡#21

@UserJourneys
https://x.com/UserJourneys/status/2053444659116953869
汇总了一下当下frontier AI圈在聊什么：Anthropic的dreaming让agent晚上回看自己白天的行为做自改进；Claude Managed Agents能跑几小时到几天协调子agent，配浏览器和电脑控制工具加rubric自我修正；Claude Opus 4.7和Grok 5带百万级上下文和更强的电脑使用能力，传闻能一次跑通32步攻击模拟；GPT-Realtime-2那种实时多语种会议agent。算是个生态扫描。

💡#22

@Avicula11
https://x.com/Avicula11/status/2053360210694332481
在TypeScript加Hono加Next.js 15上搭了个客服AI，存储用Postgres加pgvector和Redis，模型走Gemini API。Agent loop会调工具配RAG带引用，多租户隔离（每租户独立prompt、知识库和token预算），SSE流式输出，管理后台能看用量、对话和prompt版本。作者总结agent loop本身才200行，外面那一圈基础设施才是大头，做出一个会说话的LLM不难，做出一个可靠的才难。

💡#23

@rohan0673
https://x.com/rohan0673/status/2053370412201853075
做了个agentic loop产品：自动找本地没网站的小生意，给它们建好站，再发冷邮件pitch过去。有Claude订阅就能接上跑。是个挺直接的agent loop非编码应用案例——把lead生成、资产生产和外联三件事打包成一条流水线，售卖的是服务而不是软件本身。

💡#24

@DoDataThings
https://x.com/DoDataThings/status/2053479923793461358
观点是只要是要持续做的事，agent loop模式就比chat模式好。具体做法是把Claude Code挂cron跑，每次执行之间靠读取state文件来接续，这样一个chat就变成了runtime，你迭代的对象从prompt变成了state文件。从prompt engineering挪到state engineering的思路在长跑agent里挺有指导性。

💡#25

@Twendee_
https://x.com/Twendee_/status/2053488568342073544
短数据点：AI agent跑了一晚上挖出了72篇同行评议论文。提到Autoresearch这种开源工具能让你通过对话组agent团队不用写代码。虽然短但是是个挺具体的非编码autoresearch loop应用案例，做研究自动综述的方向。

💡#26

@aerentensora
https://x.com/aerentensora/status/2053404727488970872
抛了个创业点子：agent在物理世界里跑autoresearch——自己采数据、需要时自己造传感器、用Lean写对应的数学模型、然后最小化model-reality的loss。短但思路新，把autoresearch loop指向了实验科学加形式化证明的方向，跟纯coding loop拉开了距离。

💡#27

@BruceMi0321
https://x.com/BruceMi0321/status/2053488272366833715
讲了自己怎么给AI做沙盒：执行权限完全禁掉（AI能读、写、管理但不能跑程序），项目目录范围内授权，去掉了approval这样agent loop能自己迭代修编译错误。原来的approval模式是通过Telegram问yes/no，claw软件批准一次后立刻关门，直到下次再触发。读权限通过工具放开让AI能看到更多项目内容但禁止改写或删除范围外的东西。是个挺具体的agent本地化安全实践。

📡 生态产品雷达

生态产品雷达
Hermes — 9 次提及
Claude Code — 9 次提及
OpenClaw — 7 次提及
Autoresearch — 7 次提及
Codex — 5 次提及
MCP — 4 次提及
Telegram — 4 次提及
Cursor — 3 次提及
Paperclip — 3 次提及
n8n — 3 次提及

← 上一篇

超级用户日报: 2026-05-12

灵感雷达: 2026-05-12

← 返回所有文章

加载中...

Loop 日报: 2026-05-12

更多文章

评论