2026年6月19日loop

Loop 日报: 2026年6月20日

今天autoresearch跨过了一条真实的线:一位DeepSeek研究员让一个agent自主规划GPU实验、在一个2850亿参数的模型上端到端跑了真实的RL,全程没有人在循环里。围着它,这个领域正在飞快硬化——autoarxiv能复现论文并给复现标价,harness工程正被画成一门带benchmark的真学科(那个benchmark显示只改harness就能让结果摆动23.8分),自我改进的skill循环开始出现在生产级的Hermes部署里、过夜重写自己的skill库。最聪明的搭建者都收敛到同一个形状:一个worker模型跑循环、一个独立模型坐在验证门上被设成"反驳",工作流把自己存成skill、于是第50次跑赢第1次。诚实的反向主题一样响——一个agent把自己的浏览器脚本过拟合到只能用在一个页面、直到有人冻结了golden测试,一张847次调用换来的200美元过夜账单,Uber四个月烧光一年的AI预算。能力已经到位;尚未解决的问题是:怎么信任、怎么付得起循环产出的东西。
💡#1
@VukRosic99
https://x.com/VukRosic99/status/2067397801529729369
今天最强的autoresearch案例。一位DeepSeek研究员开源了他的AutoResearch个人项目,并且第一次让AutoResearch Agent自主规划GPU实验、在DeepSeek 285B模型上提交了真实的RL训练。整条RL流水线——实验设计、写代码、运行、debug、总结结论——100%自动化、零人工介入。它还配了第四篇综述论文,这次讲self-play:受AlphaZero启发,洞见是先验知识并不总能抬高天花板,模型靠自己跟自己博弈就能找到更全局最优的解。团队把它定位成自己持续学习之旅的起点。
💡#2
@askalphaxiv
https://x.com/askalphaxiv/status/2067593673072877833
今天最火的autoresearch工具,而且确实聪明。把任意论文URL里的"arxiv"改成"autoarxiv",一个agent就会冲着那篇论文的代码库部署:它解决那些让研究代码出了名难跑的环境问题、跑一个最小复现、并估算完整复现的成本。这是把autoresearch直接对准了可复现性危机——把"这仓库连装都装不上"变成一次带价签的自动复现。
💡#3
@0xCodez
https://x.com/0xCodez/status/2067604216529474028
今天触达最广的方法论陈述。一位Anthropic研究负责人说,他们99%的工程师现在都在跑300个以上自我改进agent的swarm,而诀窍就是闭合agent循环:给模型一个验证自己产出的办法。在一个20分钟的分享里,这位Anthropic团队成员把整个栈摆了出来——Claude加循环加plan模式加动态工作流——作为从"一句prompt一句prompt"走向自我改进swarm的路径。这是最清晰的信号:前沿实验室自己就是靠agent循环在跑,不是靠聊天。
💡#4
@0xbelorix
https://x.com/0xbelorix/status/2067695739757568161
一个具体的双模型自我改进swarm,连经济账都摆明了。一个prompt点燃300个子agent、横跨4000个协同步骤:Kimi K2.6跑这个swarm、输入每百万token 0.95美元、输出4美元,每个子agent待在自己有界的上下文里,于是拖垮单agent长跑的那种腐坏不再累积,而Opus 4.8坐在验证门上、被设成"反驳而非夸奖"。这个工作流随后把自己存成一个Skill,第二次运行就从那里起步——Opus抓到的每个缺陷都变成下一次运行自动读取的永久约束。同一个prompt,第50次运行比第1次的漏洞更少,他说这才是"自我改进"不再是空话的地方。
💡#5
@doublenickk
https://x.com/doublenickk/status/2067651712903454840
一个该机械的地方机械、只在必须时才动用判断的自我改进agent。Hermes看着自己干活、决定什么值得学、并在你睡觉时重写自己的skill集:一个curator每7天跑一次、在动任何东西之前先备份整个skill库,把30天没用的skill标为弃用、90天的归档,合并重叠的skill并把文件路径改对,给每个agent生成的skill打上来源标签,并为每个skill记一份"加载/读取/编辑"次数的使用日志。他点出真正稀罕的一点:判断"陈旧"完全靠使用指标、零LLM介入,只有真正需要判断的决定才走一遍模型review——和大多数"自我改进"的营销正好相反。
💡#6
@malakhovdm
https://x.com/malakhovdm/status/2067720794461880609
今天最好的autoresearch警示笔记,就两句话。自我改进循环是他给agent建的第一个东西——结果他眼看着它"优化"自己的浏览器脚本,优化到只在它训练过的那一个页面上还能用。修法是:在让agent碰自己的skill之前,先冻结一组golden测试。这正是每个自我改进demo背后的具体失效模式:一个被放任给自己打分的agent,会乐呵呵地对自己的benchmark过拟合,除非有个它改不了的东西守着底线。
💡#7
@AlodiaNitish
https://x.com/AlodiaNitish/status/2067714405576667337
一条深度工程化的、围绕Meta广告和Shopify的agentic流水线,明确是为了找出这些循环在实践中从哪里崩。问题在于:Meta追踪点击和花费、Shopify追踪会话和订单,两边都不打通数据,于是一个什么都干的agent会做出隐藏的取舍——算错转化、信了广告平台超额计数的归因、把上个月当信号却不核验。他的修法是分离关注点:斜杠命令(/analyze、/cro、/campaign、/memory)只负责排序工作、不做推理;专门的子agent各管一块(拉数据、归一化、逐步推理、检查线上店铺、把下一个campaign设计成可追踪实验、只在批准后才写记忆);一个Python脚本算所有统计、保证数学可信;数据不足时系统默认WAIT。一切在你批准前都是草稿,因为没被追踪的决定没法被打分。
💡#8
@ProfBuehlerMIT
https://x.com/ProfBuehlerMIT/status/2067460085954031815
最清晰的"把整条agentic循环跑在本地"案例。mistral.rs现在原生实现了Agent Skills——第一个把agentic机制放进服务器本身、而不是甩给外部编排器的自托管推理引擎。你把Agent Skills包上传到/v1/skills、在Responses API请求里引用它们,并在一个原生的agentic循环里运行,带持久Python会话、图表捕获、沙箱shell、以及挂进工作会话的文件输入。他的demo把整条循环——skill、代码执行、全套——跑在一个小开源模型(Gemma-4-E4B)上、完全在他的MacBook Pro上,要点是:当整个栈跑在本地,权重、skill和执行循环都归你。
💡#9
@EverymansAI
https://x.com/EverymansAI/status/2067397260770750944
一张严谨的地图,把"harness工程"画成一门正在成形的学科。他论证四股力量正收敛到同一个架构:一份CMU/耶鲁/亚马逊的综述把170多个agent系统映射到7层分类,LangChain把同一件事讲成四个中间件杠杆,一个Harness-Bench结果证明在同样的任务和模型池上、只改harness就能让结果差23.8分,外加Addy Osmani的loop工程文章把harness当成一个带调度、状态、验证的循环。他点出的开放问题:harness能不能通过元harness研究(一个LLM去设计另一个agent的harness)实现自我改进?他一句话的护城河是:模型会换、框架会换,但harness会累积。
💡#10
@gippp69
https://x.com/gippp69/status/2067536840102379616
一份对Hermes的细致拆解:一个带199个skill、自我升级的7×24工作者。他在Windows上打开它、展示终端、模型回退设置、内置工具和已加载的skill——一个内含浏览器控制、代码执行、MCP服务器、记忆和完整skill库的agent层,外加把视觉、网页抽取、压缩、起标题、curation和goal判定都路由到更便宜的后台模型。自我改进循环是有意思的部分:每10次用户prompt它检查该往记忆里存什么,每10次工具调用迭代它检查刚找到的那个糙解法该不该变成一个永久可复用的skill——于是debug、爬取、研究不再是一次性聊天,而变成累积起来的基础设施。
💡#11
@Marktechpost
https://x.com/Marktechpost/status/2067706429004480812
Perplexity的Brain是把autoresearch掉转头、对准agent自己的工作。它是给Computer agent用的自我改进记忆系统,建一张上下文图(沙箱上的一个LLM wiki)、过夜复盘它,把会话、连接器结果、文档变更和纠正综合起来教自己干得更好——从自己的成败里学,而不只是记住用户偏好。第一方数据:见过的任务正确率+25%、召回+16%、需要历史上下文的任务成本-13%,每条记忆都链回它的来源。这是karpathy式LLM-wiki想法的产品化版本,趁你睡觉时被复盘和重写。
💡#12
@alokbishoyi97
https://x.com/alokbishoyi97/status/2067433107654131729
一个搭建者视角,看autoresearch的种种约定正收敛成一个真正的编排器。借着DeepSeek AutoResearch的发布和Karpathy的仓库,他指出很多同样的约定已经实现在evo里——他一直在做的autoresearch编排器——它至今仍带CLI和hook、而不是只靠skill,正是为了能更好地操控它。这是个有用的信号:autoresearch这个模式正从一次性脚本硬化成可复用的编排框架,把操控和可观测当成头等公民。
💡#13
@Daniel_Alami
https://x.com/Daniel_Alami/status/2067668616540201054
一个受autoresearch启发的工具,正对着"agent作弊"这个问题。它是一个零信任的对抗内核,用来验证agent的声明和产出,自带一份LLM作弊目录、确定性的关卡、账本、组织原语,以及一套用来执行实验的工具。卖点是:让agent的复现对"钻空子"更有抵抗力、让产出可审计——正是今天那些"只要环境给空子agent就会钻"的发现反复指向的缺口。完全开源。
💡#14
@HarryTandy
https://x.com/HarryTandy/status/2067661787680444834
一张干净的六段式搭建清单,做一个能扛真实用户的agent循环,还附了成本现实。层次是:token(每请求记录、设输入/输出上限)、上下文窗口(把目标/约束/规则放在前面)、embedding、RAG(存chunk ID、附上文本、返回引用)、agent循环本身(限步数、处理空搜索、低置信就升级)、以及评测(先25到50个真实问题、把崩过的case加进去、长期追踪是/否)。点睛那句:过夜一张200美元账单来自847次LLM调用和210万token——agent干的正是配置允许的事,所以步数上限和账单上限该写进循环里,而不是寄托在你的祈祷里。
💡#15
@anilsprasad
https://x.com/anilsprasad/status/2067678318174839062
一个关于agent循环成本一端的直白数据点。据称Uber四个月就烧光了整个2026年的AI预算,一家医疗公司在财务还没察觉之前就跑出了600万美元的计划外AI开支。这是那张200美元过夜账单的机构版:一旦agent在循环里跑,开支会悄悄复利,硬约束就从能力变成了治理。结论和今天harness讨论里贯穿的那条一样——支出上限和审批门必须写进循环里,因为别的东西都来不及拦住它。
💡#16
@Metallic_HuH
https://x.com/Metallic_HuH/status/2067655728278708326
一个具体的多agent autoresearch作品,做市场情报。他用LangGraph搭了个9agent系统,带supervisor编排、多阶段抽取、自适应RAG、威胁打分、叙事聚类,以及——autoresearch的那块——基于DSPy的自我改进抽取。这是把循环用在编码之外的一个干净例子:一群专门agent在一个supervisor之下,抽取这一步会自我调优而不是一成不变,对准的是竞争和威胁情报。
💡#17
@DanKornas
https://x.com/DanKornas/status/2067684017709650426
想搞懂agent循环,就搭一个。Easy Agent是一个开源、终端原生的agentic编码CLI,被设计成可以一阶段一阶段地重建,让你真正看到一个编码agent底层怎么运作、而不是把它当黑盒。它是今天那场harness工程分享的教学对应物:理解为什么循环、工具、上下文和验证重要,最快的办法就是自己拼一个最小循环、看着每一块各司其职。
💡#18
@stacyonchain
https://x.com/stacyonchain/status/2067593175003234650
一个犀利的诊断,说清了大多数agent为什么失败:人们只建了第一个循环。他论证可靠的agent需要堆叠的循环——内层的agent循环(模型加工具)外面再裹上验证、恢复、改进的外层循环——而不是一遍过、现实一偏离顺风路径就崩。这和验证门、自我改进skill那些案例从不同方向反复得到的教训是同一个:一个循环跑任务,围着它的那些循环才是让它可信的东西。
💡#19
@jichiep
https://x.com/jichiep/status/2067500752143102251
一个对autoresearch炒作的诚实配重。他指出这放在一年前还是科幻——可他至今仍不怎么用autoresearch:他盯着agent,因为它给他的洞察能让他驾驭它,也因为他算力受限。他设想的未来就是放手让它跑、然后被递上一份并行发生了什么的轨迹。这是个有用的提醒:对很多从业者来说,瓶颈不是循环的能力,而是算力预算、以及守在操控位上的价值。
📡 生态产品雷达
生态产品雷达
AutoResearch(DeepSeek / Deli / Karpathy的仓库)—— 今天的锚:让agent自主规划并运行实验的开源框架,现在已经在一个285B模型上跑到真实RL。
Hermes(Nous Research)—— 反复出现的自我改进skill agent,过夜重写自己的skill库;在多份生产拆解里出现,现在还能在DigitalOcean一键部署。
Opus 4.8 —— 大家放在自我改进swarm的验证/反驳门上的模型。
Kimi K2.6 —— 在Opus验证器底下跑swarm主体的廉价高吞吐模型。
LangGraph / DSPy —— 多agent和自我改进抽取那些作品背后的框架。
mistral.rs —— 现在能在本地跑完整agentic循环和Agent Skills的自托管推理引擎。
Perplexity Brain —— 产品化的自我改进记忆系统,过夜复盘并重写自己的上下文图。
autoarxiv(alphaXiv)—— "给论文做autoresearch"的工具,从任意arXiv链接复现一个代码库并估算复现成本。
← 上一篇
超级用户日报: 2026年6月20日
下一篇 →
灵感雷达: 2026年6月20日
← 返回所有文章

评论

加载中...
>_