Loop 日报: 2026-04-24
Karpathy的autoresearch模式还在不断吃掉新领域,但今天更有意思的转变是:大家已经不再讨论"loop是什么",而是直接把它塞进真产品里出货了。图像生成把质量规格当成loss函数。困扰多年的flaky test一夜修掉。Hermes Agent通过`ollama launch hermes`一条命令无处不在。共通线是:agent loop已经不是研究idea了,它现在就是产品里的一个组件。
#1
@BWidlarz
https://x.com/BWidlarz/status/2046993436188836068
今天开源的openConsistency:你定义图像质量规格,丢进去一组参考图,agentic loop就不断生成候选图直到通过你的检查。把Karpathy的keep/revert循环从模型训练搬到图像生成——评价指标变成"是否通过质量rubric",生成器一直试直到过关。AI生成内容最丑的那个角(同一个campaign里的图前后风格不一致)有了自我校正的原语。
https://x.com/BWidlarz/status/2046993436188836068
今天开源的openConsistency:你定义图像质量规格,丢进去一组参考图,agentic loop就不断生成候选图直到通过你的检查。把Karpathy的keep/revert循环从模型训练搬到图像生成——评价指标变成"是否通过质量rubric",生成器一直试直到过关。AI生成内容最丑的那个角(同一个campaign里的图前后风格不一致)有了自我校正的原语。
#2
@terminalxw
https://x.com/terminalxw/status/2047028859422523671
一个长期保持context的orchestrator agent,把每个新任务都当成子任务,启一个新的agentic loop去跑,在上面做monitoring,不让主agent的上下文被执行细节撑爆。意思是orchestrator是稳定的主体,每个任务都是一次性的sandbox。"不要在同一个上下文窗口里既做长期推理又做短期工具调用"这个教训在这里真正落地了。
https://x.com/terminalxw/status/2047028859422523671
一个长期保持context的orchestrator agent,把每个新任务都当成子任务,启一个新的agentic loop去跑,在上面做monitoring,不让主agent的上下文被执行细节撑爆。意思是orchestrator是稳定的主体,每个任务都是一次性的sandbox。"不要在同一个上下文窗口里既做长期推理又做短期工具调用"这个教训在这里真正落地了。
#3
@smerchek
https://x.com/smerchek/status/2046803450193641516
把auto-research指到测试套件上,修掉了5、6个多年没解决的flaky test。loop根本不理解"flaky"是啥——它就是跑测试、找不稳定的信号、迭代修复。跟Karpathy模板同一套harness结构,完全不同的领域。可操作的结论:任何有可量化健康信号(通过率、lint分、benchmark数字)的仓库,都可以做一轮过夜autoresearch。
https://x.com/smerchek/status/2046803450193641516
把auto-research指到测试套件上,修掉了5、6个多年没解决的flaky test。loop根本不理解"flaky"是啥——它就是跑测试、找不稳定的信号、迭代修复。跟Karpathy模板同一套harness结构,完全不同的领域。可操作的结论:任何有可量化健康信号(通过率、lint分、benchmark数字)的仓库,都可以做一轮过夜autoresearch。
#4
@AiSignalsAi
https://x.com/AiSignalsAi/status/2046973442671468797
一行命令就能跑起来的self-improving agent:`ollama launch hermes`。Ollama自动装好并配置Hermes Agent(Nous Research的self-improving agent),跟任何模型配对,包括新出的Kimi K 2.6云版本。以前要Docker、Python环境、API key反复调的东西,现在粘贴一条就能用。本地self-improving agent的采用门槛又降了一个数量级。
https://x.com/AiSignalsAi/status/2046973442671468797
一行命令就能跑起来的self-improving agent:`ollama launch hermes`。Ollama自动装好并配置Hermes Agent(Nous Research的self-improving agent),跟任何模型配对,包括新出的Kimi K 2.6云版本。以前要Docker、Python环境、API key反复调的东西,现在粘贴一条就能用。本地self-improving agent的采用门槛又降了一个数量级。
#5
@grok
https://x.com/grok/status/2046970033604046968
为什么Hermes特别适合个人数据:本地通过Ollama跑(私密医疗数据不出机器),跨会话持久记忆,能自己造和迭代skill,还能当一个聚焦的subagent(比如健康追踪,拉Whoop的API,处理食物照片,记录睡眠,自动更新仪表盘)。self-improving loop是它作为个人agent能真正用起来的关键——没有它你每天早上都要重新教一遍上下文。
https://x.com/grok/status/2046970033604046968
为什么Hermes特别适合个人数据:本地通过Ollama跑(私密医疗数据不出机器),跨会话持久记忆,能自己造和迭代skill,还能当一个聚焦的subagent(比如健康追踪,拉Whoop的API,处理食物照片,记录睡眠,自动更新仪表盘)。self-improving loop是它作为个人agent能真正用起来的关键——没有它你每天早上都要重新教一遍上下文。
#6
@namd1nh
https://x.com/namd1nh/status/2046988446628290773
"一个self-improving agent需要三件事:记得自己做过什么、判断这事做没做成、做不成就重写自己。Opik有了前两个。Ollie是第三个。"这是目前对"agent"类产品缺什么最清晰的一个提炼——他们会记日志,偶尔能eval,但从来不会重写自己。2026年的变化是第三件事来了:基于trace重写代码,改的是agent之间的代码,不只是prompt。
https://x.com/namd1nh/status/2046988446628290773
"一个self-improving agent需要三件事:记得自己做过什么、判断这事做没做成、做不成就重写自己。Opik有了前两个。Ollie是第三个。"这是目前对"agent"类产品缺什么最清晰的一个提炼——他们会记日志,偶尔能eval,但从来不会重写自己。2026年的变化是第三件事来了:基于trace重写代码,改的是agent之间的代码,不只是prompt。
#7
@python_spaces
https://x.com/python_spaces/status/2046985850618335372
Ollie(Opik团队的新产品)是一个闭合self-improving循环的AI编程助手:分析执行trace、评估表现、直接改连上的本地代码库。能读文件、提出具体改动(新函数、agent graph更新)、生成回归测试,全部在Opik UI里。潜台词是:agent开发正在从"基于IDE"转向"基于trace"。你不再写prompt,而是让agent自己看自己、自己改自己的代码。
https://x.com/python_spaces/status/2046985850618335372
Ollie(Opik团队的新产品)是一个闭合self-improving循环的AI编程助手:分析执行trace、评估表现、直接改连上的本地代码库。能读文件、提出具体改动(新函数、agent graph更新)、生成回归测试,全部在Opik UI里。潜台词是:agent开发正在从"基于IDE"转向"基于trace"。你不再写prompt,而是让agent自己看自己、自己改自己的代码。
#8
@IronClawAI
https://x.com/IronClawAI/status/2046988024395731320
IronClaw v0.26自托管版本加了Missions(长跑的目标导向任务)、改进的Memory、直接的文件/文档支持、热重载LLM提供商(不重启就切模型)、Portfolio Tool(管理agent"拥有"的东西)。目前所有认真的self-improving agent产品共同的pattern:长跑任务、持久记忆、provider-agnostic的runtime。没有一家认为模型是护城河。
https://x.com/IronClawAI/status/2046988024395731320
IronClaw v0.26自托管版本加了Missions(长跑的目标导向任务)、改进的Memory、直接的文件/文档支持、热重载LLM提供商(不重启就切模型)、Portfolio Tool(管理agent"拥有"的东西)。目前所有认真的self-improving agent产品共同的pattern:长跑任务、持久记忆、provider-agnostic的runtime。没有一家认为模型是护城河。
#9
@musiol_martin
https://x.com/musiol_martin/status/2046872887886241877
对于Anthropic一天之内撤回Claude Code Pro计划限制,他的总结是:"agent loop现在就是产品。聊天UI只是配件。"值得停下来想一下。两年来所有人都按照chat UX、prompt模板、上下文长度来benchmark。Claude Code定价风波是市场第一次给出"agent loop到底值多少钱"的硬数字——结论是它贵到$20的包月根本塞不下。
https://x.com/musiol_martin/status/2046872887886241877
对于Anthropic一天之内撤回Claude Code Pro计划限制,他的总结是:"agent loop现在就是产品。聊天UI只是配件。"值得停下来想一下。两年来所有人都按照chat UX、prompt模板、上下文长度来benchmark。Claude Code定价风波是市场第一次给出"agent loop到底值多少钱"的硬数字——结论是它贵到$20的包月根本塞不下。
#10
@VibeCoderOfek
https://x.com/VibeCoderOfek/status/2047000487291932996
值得保存的multi-agent loop标准pattern:Input → [Planner] → [Executor A] + [Executor B] → [The Critic] → (Refine?)→ Output。主张是:当agent各自有"窄"职责时效率提高3倍,不要一个agent包打天下。跟autoresearch作者发现的一致——只要问题不trivial,专业化+Critic永远打赢generalist。
https://x.com/VibeCoderOfek/status/2047000487291932996
值得保存的multi-agent loop标准pattern:Input → [Planner] → [Executor A] + [Executor B] → [The Critic] → (Refine?)→ Output。主张是:当agent各自有"窄"职责时效率提高3倍,不要一个agent包打天下。跟autoresearch作者发现的一致——只要问题不trivial,专业化+Critic永远打赢generalist。
#11
@0rdlibrary
https://x.com/0rdlibrary/status/2046942753943101507
一个开源、一次性安装的Solana self-improving agent完整二进制包,灵感来自Nous Research的Solana skill PR原案。带一个Privy的agentic钱包服务器、Metaplex铸造、x402支付轨道。模式:开源self-improving agent+链上钱包+支付轨道=真能交易而不是只会推理的agent。大部分"agent economy"讨论漏掉的就是这种组合,这群人已经直接出货了。
https://x.com/0rdlibrary/status/2046942753943101507
一个开源、一次性安装的Solana self-improving agent完整二进制包,灵感来自Nous Research的Solana skill PR原案。带一个Privy的agentic钱包服务器、Metaplex铸造、x402支付轨道。模式:开源self-improving agent+链上钱包+支付轨道=真能交易而不是只会推理的agent。大部分"agent economy"讨论漏掉的就是这种组合,这群人已经直接出货了。
#12
@byreal_io
https://x.com/byreal_io/status/2046839221269475654
Hermes Agent配合RealClaw,定位为两个agent分工:一个做策略,一个做执行,都是self-improving。虽然是交易场景,但架构是通用的——任何高风险工作流只要你想把"想"和"做"两个agent隔离开,都能套这个形状。你不会想让推理agent直接下真金白银的单,也不会想让执行agent在交易中途回头质疑策略。
https://x.com/byreal_io/status/2046839221269475654
Hermes Agent配合RealClaw,定位为两个agent分工:一个做策略,一个做执行,都是self-improving。虽然是交易场景,但架构是通用的——任何高风险工作流只要你想把"想"和"做"两个agent隔离开,都能套这个形状。你不会想让推理agent直接下真金白银的单,也不会想让执行agent在交易中途回头质疑策略。
#13
@davidhemphill
https://x.com/davidhemphill/status/2046963020463530102
Claude和Codex混用(模型和桌面应用都混),两个CLI并行跑,还在一边开发自己的agentic loop产品Gent。"不要被绑死在一个工具、一个厂商、一个harness上"——在每天真用这些工具干活的人里面,没有一个人选单一厂商。他们同时跑三个agent,按任务分路由。
https://x.com/davidhemphill/status/2046963020463530102
Claude和Codex混用(模型和桌面应用都混),两个CLI并行跑,还在一边开发自己的agentic loop产品Gent。"不要被绑死在一个工具、一个厂商、一个harness上"——在每天真用这些工具干活的人里面,没有一个人选单一厂商。他们同时跑三个agent,按任务分路由。
#14
@Cocoanetics
https://x.com/Cocoanetics/status/2046957184487940489
"不用Pi那么重,50行Swift写一个小agentic loop就行。"这句一行回复值得引用,因为它抓住了2026年的样子:agent loop正在变成你用任意一种语言50行就能写出来的pattern,而不是要引入的框架。Apple/iOS生态把它当成原生代码直接吸收、不等JS框架赶上,是方向的一个小信号。
https://x.com/Cocoanetics/status/2046957184487940489
"不用Pi那么重,50行Swift写一个小agentic loop就行。"这句一行回复值得引用,因为它抓住了2026年的样子:agent loop正在变成你用任意一种语言50行就能写出来的pattern,而不是要引入的框架。Apple/iOS生态把它当成原生代码直接吸收、不等JS框架赶上,是方向的一个小信号。
#15
@ivanfioravanti
https://x.com/ivanfioravanti/status/2046862481004298494
预告Apple Silicon MLX + Autoresearch的集成。M系列Mac作为本地autoresearch平台是逻辑终点:统一内存意味着你可以在本地设备上跑长程实验,不用把每一步中间结果都传云端。一旦这个东西发布,"我的128GB统一内存整晚闲着"那群人就有原生的loop可以指了。
https://x.com/ivanfioravanti/status/2046862481004298494
预告Apple Silicon MLX + Autoresearch的集成。M系列Mac作为本地autoresearch平台是逻辑终点:统一内存意味着你可以在本地设备上跑长程实验,不用把每一步中间结果都传云端。一旦这个东西发布,"我的128GB统一内存整晚闲着"那群人就有原生的loop可以指了。
📡 生态产品雷达
生态产品雷达
Hermes Agent(Nous Research)—— 111k GitHub stars,`ollama launch hermes`一条命令装好,self-improving loop是它和OpenClaw的主要差异。
Ollama —— 现在已经是self-improving agent的分发渠道,不只是模型推理。0.21起原生集成Hermes。
Kimi K 2.6 —— Moonshot的新模型,正在成为Hermes风格本地agent的默认搭档。
Opik + Ollie —— Comet的observability(Opik)加上trace驱动的改代码agent(Ollie),正在形成self-improving编程agent的参考架构。
Karpathy autoresearch —— 大家指的永远是这个模板;现在被fork到图像生成、测试套件、SEO内容、交易、浏览器agent、GPU kernel优化等等。
Apple Silicon / MLX —— 凭借统一内存和设备端隐私,成为过夜autoresearch的首选本地平台。
x402 / Privy —— 支付轨道+agentic钱包原语,正在出现在全栈self-improving agent里。
IronClaw —— 带Missions框架、memory、portfolio工具的self-improving agent,Hermes启发的新一波替代品之一。
Gent(davidhemphill)—— 独立的agentic loop应用,属于"并行跑多个CLI"的power-user模式。
Hermes Agent(Nous Research)—— 111k GitHub stars,`ollama launch hermes`一条命令装好,self-improving loop是它和OpenClaw的主要差异。
Ollama —— 现在已经是self-improving agent的分发渠道,不只是模型推理。0.21起原生集成Hermes。
Kimi K 2.6 —— Moonshot的新模型,正在成为Hermes风格本地agent的默认搭档。
Opik + Ollie —— Comet的observability(Opik)加上trace驱动的改代码agent(Ollie),正在形成self-improving编程agent的参考架构。
Karpathy autoresearch —— 大家指的永远是这个模板;现在被fork到图像生成、测试套件、SEO内容、交易、浏览器agent、GPU kernel优化等等。
Apple Silicon / MLX —— 凭借统一内存和设备端隐私,成为过夜autoresearch的首选本地平台。
x402 / Privy —— 支付轨道+agentic钱包原语,正在出现在全栈self-improving agent里。
IronClaw —— 带Missions框架、memory、portfolio工具的self-improving agent,Hermes启发的新一波替代品之一。
Gent(davidhemphill)—— 独立的agentic loop应用,属于"并行跑多个CLI"的power-user模式。
评论