2026年6月26日loop

Loop 日报: 2026年6月27日

这一周关于"循环"的讨论成熟了：从"看，一个能自己跑的 agent"，走向了硬结果和诚实的局限。头条是机器人：8个 Codex autoresearch agent 端到端让一支真实机器人机群活了起来、中间没有人工桥接。在底下，同一套骨架反复出现——适应度函数、执行器、保留或回退、教训日志、预算——无论领域是周末跑 LoRA 微调、药物发现的性质预测、越狱研究，还是自主交易。两条主线贯穿始终：所谓"自我改进"几乎总是指围绕同一个模型的、更锋利的记忆循环（Anthropic 的 Dreaming、Hermes 的 wiki、Perplexity 的 Brain），而不是新权重；而且人们开始诚实地承认，朴素的单 agent 循环会见顶，一台给自己作业打分的机器才是真正的风险。下面是人们真正跑了的东西。

💡#1

@SciTechera
https://x.com/SciTechera/status/2070055664123339001
第一次，8个基于 Codex 的 AutoResearch agent 通过 NVIDIA 的 ENPIRE 框架，端到端让一支机器人机群"活"了起来、中间没有任何人工桥接。这些 agent 自主分析失败、重写代码、重训策略、读论文、发起新实验——在真实硬件上持续自我改进，学会了装显卡、整理插针、剪扎带、Push-T 操作，成功率高达99%。它们甚至发现了一种新的"物理 scaling"：机群越大、产生的真实世界经验越多、学习越快。机器人研究循环不再由人来跑，大部分循环现在由 agent 自己跑。

💡#2

@HITESHJ20841451
https://x.com/HITESHJ20841451/status/2070279999413002702
一次干净具体的 autoresearch 实跑：4个 LLM agent 在一个长周末里，对 gpt-oss-20b 跑了108次 LoRA 微调实验、针对 HotpotQA，把准确率拉高了59个百分点、上下文扩到16K。人唯一要做的就是监督和砍掉死路。这正是 Karpathy 式循环的真实落地——整夜、无人值守、最后有个可量化的跃升。

💡#3

@willbork_
https://x.com/willbork_/status/2070228824797979129
来自 AutoScientists 团队的一个尖锐对比：在 GPT nanochat 训练优化任务上，相比 autoresearch，AutoScientists 用更少的实验就达到了相同的验证 bits-per-byte。更难的测试是从一个已经很强的冠军起步——这里单 agent 的 autoresearch 循环在100次实验中"0次被接受的改进"就饱和了，而 AutoScientists 在93次实验中持续推进、有7次被接受的改进。这是一个有用的数据点，说明朴素单 agent 循环在哪里见顶、什么能打败它。

💡#4

@anmorgan2414
https://x.com/anmorgan2414/status/2070252560947007796
实战版 AutoResearch：在 WecoAI 的 "Cracking OpenAI's Parameter Golf" 工作坊里，任务是在16MB（int8 + zlib）内训练出最好的语言模型，在8张 H100 上跑10分钟，用 bits-per-byte 打分。Weco 的 autoresearch agent 击败了1000多名人类选手，工作坊还让你亲手跑一遍这个 agent。这是一个具体、可复现的案例：自主研究循环在一个受约束的优化问题上击败了一大群人。

💡#5

@maksym_andr
https://x.com/maksym_andr/status/2070141465674604984
Claudini 论文（让 agent 自主改进越狱算法）的一次扎实更新：结果更强（claude_v100-oss 在 GPT-OSS-Safeguard-20B 上 ASR 达80%），还有一个关键消融发现——对 autoresearch 循环来说，你给 agent 的上下文很重要（喂入全部 GCG 变体明显优于只喂 GCG）。最惊人的是，在多个模型上重复实验后，Kimi-K2.6 成了这个任务上最好的 agent，一位合作者说它"什么都做对了"。这又是一个证据：中国开源权重模型在 autoresearch 式循环里非常强。

💡#6

@askalphaxiv
https://x.com/askalphaxiv/status/2070159537093677095
一个很实在的"自己跑跑看"时刻：alphaXiv 展示了一个在困难研究任务上可信赖的开源模型，而你只要把任意 arXiv URL 里的 'arxiv' 改成 'autoarxiv'，就能用 GLM 5.2 自己跑 autoresearch。它把 autoresearch 从"只有实验室才有的能力"变成了"任何人都能对一篇论文触发的 URL 小技巧"。可及性这个角度——开源模型加上一个字符的 URL 改动——才是这里真正的看点。

💡#7

@heyDhavall
https://x.com/heyDhavall/status/2070029911520358830
通过 Atlas Graph 把 autoresearch 做到规模化：给 Atlas 一个 arXiv ID，让你的 agent 把那篇论文变成一张可运行的图；一旦结果被复现，这张图就成了起点。agent 可以挑一个节点继续走下去——扩展一个实验、测试作者放弃的方向、为另一个指标优化、或分叉出一个新想法——每次运行都回填进同一张图。于是一篇论文不再是终点，而成了数百个后续实验的发射台。

💡#8

@rudzinskimaciej
https://x.com/rudzinskimaciej/status/2070209038269182376
一次坦诚的一手 autoresearch 实验：他花了3天搭了一个 nanogpt 规模的小型 autoresearch，发现 DeepSeek 表现甚至不如 Qwen Max 3.7，GLM 的对比还在跑。他的尖锐观察是——没有 Opus 帮一点忙，这些 autoresearch 运行常常意义不大，因为 DS 和 Qwen 都不能可靠地选数值或处理实现细节；它们在想法上更宽、泛化更好，却在小细节上翻车、把好处全丢掉。他的诉求是：至少要有一个开源模型，注意力好到能像 Opus/GPT 那样合理地处理10万上下文。

💡#9

@teortaxesTex
https://x.com/teortaxesTex/status/2070172894328463610
一句被广泛转发的判断：这是认真的 autoresearch 的开端，不是某个"负责任的 AI 安全委员会"按个按钮就能收回的。无论接下来发生什么，我们已经有了早期的 AI 科学家助手——而递归自我改进可以是本地的，哪怕慢。这是对"autoresearch 这个精灵回不去瓶子里"的一句简洁陈述。

💡#10

@ChrisHayduk
https://x.com/ChrisHayduk/status/2070183659383214359
一个对生物领域 autoresearch 的有深度的方法论论证：生物学比文本复杂得多——它是一个充满例外、几乎没有真正普适规律的领域，所以 Bio ML 里有近乎无限的子问题。正因如此，解决生物学至少需要和解决文本一样多的研究者和算力，这恰恰是他对生物领域的 autoresearch 比对 LLM 更看好的原因。这个领域受"智能"约束的方式是文本所没有的，使它天然适合自主研究循环。

💡#11

@BiologyAIDaily
https://x.com/BiologyAIDaily/status/2070161121663967346
一篇关于分子性质预测的闭环 Auto Research 的深入、严谨的论文，关键在于可靠性：当 LLM agent 自适应地修改特征、模型代码和训练数据来提升验证集时，哪些改进真的能泛化到没见过的留出测试集？方法把"发现"和"认证"分开——每个被验证集选中的配置都被冻结、从头重训、在隔离的测试集上只评一次——并用文件级的消融锁定，让每次试验只改一个维度（特征、模型或数据）。在36个端点上它展示了正向的留出收益，但也暴露了两种"不可迁移"特征（选择方差和分布偏移），冷静地提醒我们：验证集的收益不会自动等于真实收益。

💡#12

@jaseweston
https://x.com/jaseweston/status/2070117091521204521
一个值得跟踪的研究主张：真正推动前沿的 autoresearch 关键在于更好的数据——他们称之为 Autodata。核心思想是把"agentic 数据生成"作为一种把增加的推理算力转化为更高质量模型训练的方式，在计算机科学、法律和数学问题上都比经典合成数据方法有提升。他们还展示了如何元优化这个"数据科学家 agent"，让它生成更强的数据。这是把 autoresearch 框定为"数据生成循环"而非仅仅"跑实验循环"的具体表述。

💡#13

@nodescribe89
https://x.com/nodescribe89/status/2070134011251540252
详细看看 MiMoCode，小米开源（MIT 协议）的终端编码 agent（两周从0到1万 star），口号是"模型与 agent 共同进化"。它是 OpenCode 的一个分支、加了一层自我改进：它维护一个持久的 MEMORY.md，由两个命令喂养——/dream 扫描最近的会话，把持久知识拉进记忆、丢掉过时条目；/distill 盯着你反复手动重复的步骤，把高置信度的打包成可复用的 skill、子 agent 或命令。还有一个 /goal 停止条件，由一个独立的裁判模型检查，直接针对那种毁掉自主运行的、乐观的"完成了"。这是一个真正接在编码 agent 上的自我改进循环。

💡#14

@nosp321
https://x.com/nosp321/status/2070140491878764588
一个非编码领域的循环：把一个完全自主的交易系统当作"循环工程"来搭。这份拆解列出了任何可用循环的6个组件（自动化、skill、状态文件、验证器、worktree、连接器）和交易循环的5个阶段（数据 → 信号生成 → 验证 → 执行 → 风险监控），并采用"制单-审单"分离，由一个独立 agent 来验证信号。自我改进的部分是：每一次亏损都被记录为一条教训、用来改进系统，让你从"我跑几个测试"走向"系统在我睡觉时运行"。这是把 autoresearch 循环应用到市场上的清晰模板。

💡#15

@IBuzovskyi
https://x.com/IBuzovskyi/status/2070067409130537316
一个具体的自我改进知识系统：Hermes Agent 自带一个 LLM Wiki skill（Karpathy 的模式），把知识编译一次、保持更新，而不是像 RAG 那样每次查询都重新发现。喂给它一个来源，它就写出一个结构化的 markdown 页面、自动链接到相关页面、标记矛盾、更新受影响的页面——每加一条，图就更密。你用 cron 任务自动化这个增长（"每天摄入今天的会话"、"每周查 arXiv 的新论文"），于是它从第一个月50条零散条目，长到第六个月1000多条互相引用的条目。agent 变聪明是因为知识库变聪明了——整夜、自己长大。

💡#16

@0xbelorix
https://x.com/0xbelorix/status/2070124935532445932
对"自我改进"到底是什么的清晰解释，还带一个真实结果：Harvey 打开了 Anthropic 新的 Dreaming 功能，看着它的法律 agent 把任务完成率提升到6倍。Dreaming 是一个在 agent 会话之间运行的定时任务——它读取最多100份过往转录稿、合并重复、替换过时笔记、为下一次运行写出一个干净的记忆库。Anthropic 自己的说法是：模型没有变，没有权重更新、没有微调；改进的是 agent 每次任务开始时读取的那套精心整理的纯文本笔记。不是更聪明的模型——是套在同一个模型外面、更锋利的循环。

💡#17

@luckeyfaraday
https://x.com/luckeyfaraday/status/2070130307903246428
针对一篇自我进化 agent 的论文，他论证道：Build → Reflect → Curate → Reuse 这个循环正是"结构胜过一次性提示"的原因——agent 真的会随时间变好，而不是每次会话都重置。他还开源了 athena-loops，作为一个跑这些结构化、自我改进循环的实用 harness，带有合适的记忆、验证和编排。对任何想动手玩这个循环模式、而不只是读读文章的人来说，这是个真工具。

💡#18

@SciTechera
https://x.com/SciTechera/status/2070197654144135241
Perplexity 推出了 Brain，一个用于其 Computer AI agent 的自我改进记忆系统，会从已完成的任务和工作流中学习。Brain 不只是存偏好，而是把用户行为记入一张 Context Graph、并建一个个人 LLM Wiki，让 agent 每开始一个新任务时，都更深地理解用户的项目、来源和过往决策。Perplexity 称在内部测试中 Brain 把答案准确率提升了25%、召回率提升了16%。又一个主流产品收敛到同一个想法上：让 agent 从经验中学习，而不只是记住。

💡#19

@VenelinVidenov
https://x.com/VenelinVidenov/status/2070158968006082785
一个引人注目的"主权 AI"配置：他公司的整个 AI 层跑在4张 GB10 上，没有任何前沿 API 账单、没有任何数据离开他的网络。每台机器跑一个"脑"——一个带8个热插拔 LoRA 的30B MoE 品牌脑、一个36B 的 agent 指挥官、一个27B 长上下文模型，外加媒体和训练。让他不再为推理付费的那个数字是：单节点256并发下1,432 tok/s，而当他切到本地后，约57个一直因 API 上限悄悄死掉的后台 agent 全都活了过来。最上面坐着一个7×24小时指挥整个机群的持久 agent，下一步是一队自我改进的工作 agent。

💡#20

@dragosroua
https://x.com/dragosroua/status/2070013949245055226
一个很接地气的一手 agent 循环：他在 App Store 有10个 app，每个的设置页都互相推广另外9个，他想给每个 app 配10个不同的推广码、以便追踪从设置页的兑换。搭这个循环的提示时间总共15分钟；agent 干活35分钟，包括打版本、归档、上传到 App Store；并行生成推广码25分钟。顺序算约1小时15分，实际约50分钟（因为他在 agent 干活时同时加码）——估计省了4-5小时，外加在10个 app 上下文之间切换的认知负担。

💡#21

@Stoff81
https://x.com/Stoff81/status/2070056953586593892
一个他称之为"代码园艺"的精巧个人 agent 循环：每周一次 Fable（暂时用 Opus）审计、把结果提交到仓库，然后 Rowan 在空闲时从中挑任务、提 PR，Quinn 审查，Rowan 处理审查意见、获批后合并——一个自我修复的代码库。这是把有名字的 agent 接进一个持续维护循环、而不是一次性任务的、小而具体的例子。

💡#22

@ruima
https://x.com/ruima/status/2070198639004459212
一段诚实的搭建中反思：他搭自己第一个比较复杂的长跑 agent 循环、搭到约三小时、有点挫败——然后他突然意识到，自己基本上是在让它做一个 MBA 级别的研究项目，那种活儿一个受过良好教育的通才要全职干好几周。而他却能在这周末前让它跑起来，同时还并行处理好几个更小的项目。这是一个很接地气的提醒：我们多容易忘记如今的新基线已经多疯狂。

💡#23

@dxverm
https://x.com/dxverm/status/2070250719261704523
一个能便宜地闭环的有用工具：Qwen 发布了 Qwen-AgentWorld-35B-A3B，一个35B MoE、约3B 激活参数，它不是被训练成聊天模型，而是一个"语言世界模型"，用来预测 agent 采取某个动作后环境会返回什么。它覆盖 MCP/工具调用、搜索、终端、软件工程、安卓、网页和操作系统 GUI。它的价值在于模拟 agent 循环里"环境"那一侧——给定动作历史和一个新工具，它预测结果，从而减少了"为了验证状态而真去执行每个动作"的需要，也在全上下文读取上少烧 token。

💡#24

@_philschmid
https://x.com/_philschmid/status/2070177135453434183
一个具体、可复现的 agent 循环快速上手：在 Gemini 3.5 Flash 拿到跨浏览器、移动端和桌面的原生 computer use 之后，他整理了一份控制安卓手机的指南——一个脚本从终端装好模拟器，一个基础 agent 循环用 interactions API 加 `adb` 控制手机，还能连远程设备，同样的模式通过 simctl 也适用于 iOS。对任何想真正搭起一个真实设备控制循环、而不是看 demo 的人都有用。

💡#25

@DMMeacham
https://x.com/DMMeacham/status/2069970883804815692
一篇清醒的解释，讲为什么"循环"改变了谁有价值：一个 prompt 是你敲一条指令、读一个答案——你就是那个循环；而一个 agent 循环把整个周期交给机器，它自己拉取工作、用真实工具行动、检查自己的结果、再来一遍，中间没人坐在椅子上。这就是为什么认真的用户一次跑几十上百个、整夜清工单。但一台给自己作业打分的机器每次都给自己打 A，所以瓶颈悄悄从"干活"转移到了"在机器自信却错误时抓住它"——而这适用于任何工作，不只是写代码。

💡#26

@marfinxx
https://x.com/marfinxx/status/2070086349193883785
一个具体的本地 agent 循环配置：一位苹果开发者的 WWDC 演讲展示了整个 agentic 循环完全在 Apple 芯片上本地运行——它推理、调用工具、决定下一步，全程没有云 API。硬件性能取决于内存带宽：Mac Mini M4 用统一内存无头运行 Gemma 27B，GMKtec EVO X2 在 BIOS 里分配96GB 显存来加载 Llama 70B，NVIDIA DGX Spark 跑 FP4 企业级负载。MLX 加速本地执行循环，把每 token 成本降到零、让你的数据库离线、抵御提示注入攻击。这是"把循环跑在你自己硬件上"的隐私与成本论证。

💡#27

@dunik_7
https://x.com/dunik_7/status/2070161645897212375
一份有用的领域地图：一篇55页的综述，由15位研究者合力整理，囊括了 AI agent 在你部署之后能自我重写的每一种已知方式。它点出的问题是：今天几乎每个 agent 都是冻结的——你手工配置一次，它就再也不会自己变好。自我进化的 agent 把这翻转成一个循环：输入 → agent 行动 → 环境反馈 → 优化器重写 agent → 重复，并列出了 agent 学会重写的每一部分（提示、记忆、工具、工作流）。论点是：静态的、手工配置的 agent 已经是旧范式了。

💡#28

@TeksCreate
https://x.com/TeksCreate/status/2070106086669992195
一个安全领域具体的离线 agentic 循环工具：METATRON 是一个 100% 离线运行的 AI 渗透测试助手——没有云、没有 API key。你给它一个目标 IP 或域名，它运行真实的侦察工具（nmap、whois、whatweb、curl、dig、nikto），把一切喂给通过 Ollama 运行的本地 Qwen 3.5，分析漏洞、建议利用方式、推荐修复。有意思的是那个循环：AI 能根据自己的发现在分析中途请求更多工具运行，完整扫描历史存进 MariaDB。这是"本地优先、自驱动的安全工具"长什么样的清晰画面。

📡 生态产品雷达

生态产品雷达

今天 autoresearch / 循环相关帖子中被提到3次以上的工具与框架：

alphaXiv（autoarxiv / argithub）— URL 小技巧式的 autoresearch 入口；把任意 arXiv 或 GitHub URL 里改一个词，就能让 agent 对它跑研究。
Hermes Agent（Nous Research）— 带 LLM Wiki / 第二大脑的开源自我改进 agent，通过 cron 整夜生长。
Codex — 驱动 ENPIRE 机器人机群 autoresearch 的 agent，也是恒久的跨模型审计搭档。
GLM 5.2 — 人们出于成本考虑真正用来跑 autoresearch 的开源模型。
Atlas Graph — 把一篇 arXiv 论文变成可复现、可分叉的实验图，用于规模化 autoresearch。
Karpathy 的 nanochat / nanogpt — 几乎每个 autoresearch 实验都在其上做优化的共享基准底座。
Anthropic Dreaming — 支撑"无需权重更新即可自我改进"那些结果的、会话之间的记忆任务。

← 上一篇

超级用户日报: 2026年6月27日

灵感雷达: 2026年6月27日

← 返回所有文章

加载中...

Loop 日报: 2026年6月27日

相关文章

评论