Loop 日报: 2026年6月27日
这一周关于"循环"的讨论成熟了:从"看,一个能自己跑的 agent",走向了硬结果和诚实的局限。头条是机器人:8个 Codex autoresearch agent 端到端让一支真实机器人机群活了起来、中间没有人工桥接。在底下,同一套骨架反复出现——适应度函数、执行器、保留或回退、教训日志、预算——无论领域是周末跑 LoRA 微调、药物发现的性质预测、越狱研究,还是自主交易。两条主线贯穿始终:所谓"自我改进"几乎总是指围绕同一个模型的、更锋利的记忆循环(Anthropic 的 Dreaming、Hermes 的 wiki、Perplexity 的 Brain),而不是新权重;而且人们开始诚实地承认,朴素的单 agent 循环会见顶,一台给自己作业打分的机器才是真正的风险。下面是人们真正跑了的东西。
#1
@SciTechera
https://x.com/SciTechera/status/2070055664123339001
第一次,8个基于 Codex 的 AutoResearch agent 通过 NVIDIA 的 ENPIRE 框架,端到端让一支机器人机群"活"了起来、中间没有任何人工桥接。这些 agent 自主分析失败、重写代码、重训策略、读论文、发起新实验——在真实硬件上持续自我改进,学会了装显卡、整理插针、剪扎带、Push-T 操作,成功率高达99%。它们甚至发现了一种新的"物理 scaling":机群越大、产生的真实世界经验越多、学习越快。机器人研究循环不再由人来跑,大部分循环现在由 agent 自己跑。
https://x.com/SciTechera/status/2070055664123339001
第一次,8个基于 Codex 的 AutoResearch agent 通过 NVIDIA 的 ENPIRE 框架,端到端让一支机器人机群"活"了起来、中间没有任何人工桥接。这些 agent 自主分析失败、重写代码、重训策略、读论文、发起新实验——在真实硬件上持续自我改进,学会了装显卡、整理插针、剪扎带、Push-T 操作,成功率高达99%。它们甚至发现了一种新的"物理 scaling":机群越大、产生的真实世界经验越多、学习越快。机器人研究循环不再由人来跑,大部分循环现在由 agent 自己跑。
#2
@HITESHJ20841451
https://x.com/HITESHJ20841451/status/2070279999413002702
一次干净具体的 autoresearch 实跑:4个 LLM agent 在一个长周末里,对 gpt-oss-20b 跑了108次 LoRA 微调实验、针对 HotpotQA,把准确率拉高了59个百分点、上下文扩到16K。人唯一要做的就是监督和砍掉死路。这正是 Karpathy 式循环的真实落地——整夜、无人值守、最后有个可量化的跃升。
https://x.com/HITESHJ20841451/status/2070279999413002702
一次干净具体的 autoresearch 实跑:4个 LLM agent 在一个长周末里,对 gpt-oss-20b 跑了108次 LoRA 微调实验、针对 HotpotQA,把准确率拉高了59个百分点、上下文扩到16K。人唯一要做的就是监督和砍掉死路。这正是 Karpathy 式循环的真实落地——整夜、无人值守、最后有个可量化的跃升。
#3
@willbork_
https://x.com/willbork_/status/2070228824797979129
来自 AutoScientists 团队的一个尖锐对比:在 GPT nanochat 训练优化任务上,相比 autoresearch,AutoScientists 用更少的实验就达到了相同的验证 bits-per-byte。更难的测试是从一个已经很强的冠军起步——这里单 agent 的 autoresearch 循环在100次实验中"0次被接受的改进"就饱和了,而 AutoScientists 在93次实验中持续推进、有7次被接受的改进。这是一个有用的数据点,说明朴素单 agent 循环在哪里见顶、什么能打败它。
https://x.com/willbork_/status/2070228824797979129
来自 AutoScientists 团队的一个尖锐对比:在 GPT nanochat 训练优化任务上,相比 autoresearch,AutoScientists 用更少的实验就达到了相同的验证 bits-per-byte。更难的测试是从一个已经很强的冠军起步——这里单 agent 的 autoresearch 循环在100次实验中"0次被接受的改进"就饱和了,而 AutoScientists 在93次实验中持续推进、有7次被接受的改进。这是一个有用的数据点,说明朴素单 agent 循环在哪里见顶、什么能打败它。
#4
@anmorgan2414
https://x.com/anmorgan2414/status/2070252560947007796
实战版 AutoResearch:在 WecoAI 的 "Cracking OpenAI's Parameter Golf" 工作坊里,任务是在16MB(int8 + zlib)内训练出最好的语言模型,在8张 H100 上跑10分钟,用 bits-per-byte 打分。Weco 的 autoresearch agent 击败了1000多名人类选手,工作坊还让你亲手跑一遍这个 agent。这是一个具体、可复现的案例:自主研究循环在一个受约束的优化问题上击败了一大群人。
https://x.com/anmorgan2414/status/2070252560947007796
实战版 AutoResearch:在 WecoAI 的 "Cracking OpenAI's Parameter Golf" 工作坊里,任务是在16MB(int8 + zlib)内训练出最好的语言模型,在8张 H100 上跑10分钟,用 bits-per-byte 打分。Weco 的 autoresearch agent 击败了1000多名人类选手,工作坊还让你亲手跑一遍这个 agent。这是一个具体、可复现的案例:自主研究循环在一个受约束的优化问题上击败了一大群人。
#5
@maksym_andr
https://x.com/maksym_andr/status/2070141465674604984
Claudini 论文(让 agent 自主改进越狱算法)的一次扎实更新:结果更强(claude_v100-oss 在 GPT-OSS-Safeguard-20B 上 ASR 达80%),还有一个关键消融发现——对 autoresearch 循环来说,你给 agent 的上下文很重要(喂入全部 GCG 变体明显优于只喂 GCG)。最惊人的是,在多个模型上重复实验后,Kimi-K2.6 成了这个任务上最好的 agent,一位合作者说它"什么都做对了"。这又是一个证据:中国开源权重模型在 autoresearch 式循环里非常强。
https://x.com/maksym_andr/status/2070141465674604984
Claudini 论文(让 agent 自主改进越狱算法)的一次扎实更新:结果更强(claude_v100-oss 在 GPT-OSS-Safeguard-20B 上 ASR 达80%),还有一个关键消融发现——对 autoresearch 循环来说,你给 agent 的上下文很重要(喂入全部 GCG 变体明显优于只喂 GCG)。最惊人的是,在多个模型上重复实验后,Kimi-K2.6 成了这个任务上最好的 agent,一位合作者说它"什么都做对了"。这又是一个证据:中国开源权重模型在 autoresearch 式循环里非常强。
#6
@askalphaxiv
https://x.com/askalphaxiv/status/2070159537093677095
一个很实在的"自己跑跑看"时刻:alphaXiv 展示了一个在困难研究任务上可信赖的开源模型,而你只要把任意 arXiv URL 里的 'arxiv' 改成 'autoarxiv',就能用 GLM 5.2 自己跑 autoresearch。它把 autoresearch 从"只有实验室才有的能力"变成了"任何人都能对一篇论文触发的 URL 小技巧"。可及性这个角度——开源模型加上一个字符的 URL 改动——才是这里真正的看点。
https://x.com/askalphaxiv/status/2070159537093677095
一个很实在的"自己跑跑看"时刻:alphaXiv 展示了一个在困难研究任务上可信赖的开源模型,而你只要把任意 arXiv URL 里的 'arxiv' 改成 'autoarxiv',就能用 GLM 5.2 自己跑 autoresearch。它把 autoresearch 从"只有实验室才有的能力"变成了"任何人都能对一篇论文触发的 URL 小技巧"。可及性这个角度——开源模型加上一个字符的 URL 改动——才是这里真正的看点。
#7
@heyDhavall
https://x.com/heyDhavall/status/2070029911520358830
通过 Atlas Graph 把 autoresearch 做到规模化:给 Atlas 一个 arXiv ID,让你的 agent 把那篇论文变成一张可运行的图;一旦结果被复现,这张图就成了起点。agent 可以挑一个节点继续走下去——扩展一个实验、测试作者放弃的方向、为另一个指标优化、或分叉出一个新想法——每次运行都回填进同一张图。于是一篇论文不再是终点,而成了数百个后续实验的发射台。
https://x.com/heyDhavall/status/2070029911520358830
通过 Atlas Graph 把 autoresearch 做到规模化:给 Atlas 一个 arXiv ID,让你的 agent 把那篇论文变成一张可运行的图;一旦结果被复现,这张图就成了起点。agent 可以挑一个节点继续走下去——扩展一个实验、测试作者放弃的方向、为另一个指标优化、或分叉出一个新想法——每次运行都回填进同一张图。于是一篇论文不再是终点,而成了数百个后续实验的发射台。
#8
@rudzinskimaciej
https://x.com/rudzinskimaciej/status/2070209038269182376
一次坦诚的一手 autoresearch 实验:他花了3天搭了一个 nanogpt 规模的小型 autoresearch,发现 DeepSeek 表现甚至不如 Qwen Max 3.7,GLM 的对比还在跑。他的尖锐观察是——没有 Opus 帮一点忙,这些 autoresearch 运行常常意义不大,因为 DS 和 Qwen 都不能可靠地选数值或处理实现细节;它们在想法上更宽、泛化更好,却在小细节上翻车、把好处全丢掉。他的诉求是:至少要有一个开源模型,注意力好到能像 Opus/GPT 那样合理地处理10万上下文。
https://x.com/rudzinskimaciej/status/2070209038269182376
一次坦诚的一手 autoresearch 实验:他花了3天搭了一个 nanogpt 规模的小型 autoresearch,发现 DeepSeek 表现甚至不如 Qwen Max 3.7,GLM 的对比还在跑。他的尖锐观察是——没有 Opus 帮一点忙,这些 autoresearch 运行常常意义不大,因为 DS 和 Qwen 都不能可靠地选数值或处理实现细节;它们在想法上更宽、泛化更好,却在小细节上翻车、把好处全丢掉。他的诉求是:至少要有一个开源模型,注意力好到能像 Opus/GPT 那样合理地处理10万上下文。
#9
@teortaxesTex
https://x.com/teortaxesTex/status/2070172894328463610
一句被广泛转发的判断:这是认真的 autoresearch 的开端,不是某个"负责任的 AI 安全委员会"按个按钮就能收回的。无论接下来发生什么,我们已经有了早期的 AI 科学家助手——而递归自我改进可以是本地的,哪怕慢。这是对"autoresearch 这个精灵回不去瓶子里"的一句简洁陈述。
https://x.com/teortaxesTex/status/2070172894328463610
一句被广泛转发的判断:这是认真的 autoresearch 的开端,不是某个"负责任的 AI 安全委员会"按个按钮就能收回的。无论接下来发生什么,我们已经有了早期的 AI 科学家助手——而递归自我改进可以是本地的,哪怕慢。这是对"autoresearch 这个精灵回不去瓶子里"的一句简洁陈述。
#10
@ChrisHayduk
https://x.com/ChrisHayduk/status/2070183659383214359
一个对生物领域 autoresearch 的有深度的方法论论证:生物学比文本复杂得多——它是一个充满例外、几乎没有真正普适规律的领域,所以 Bio ML 里有近乎无限的子问题。正因如此,解决生物学至少需要和解决文本一样多的研究者和算力,这恰恰是他对生物领域的 autoresearch 比对 LLM 更看好的原因。这个领域受"智能"约束的方式是文本所没有的,使它天然适合自主研究循环。
https://x.com/ChrisHayduk/status/2070183659383214359
一个对生物领域 autoresearch 的有深度的方法论论证:生物学比文本复杂得多——它是一个充满例外、几乎没有真正普适规律的领域,所以 Bio ML 里有近乎无限的子问题。正因如此,解决生物学至少需要和解决文本一样多的研究者和算力,这恰恰是他对生物领域的 autoresearch 比对 LLM 更看好的原因。这个领域受"智能"约束的方式是文本所没有的,使它天然适合自主研究循环。
#11
@BiologyAIDaily
https://x.com/BiologyAIDaily/status/2070161121663967346
一篇关于分子性质预测的闭环 Auto Research 的深入、严谨的论文,关键在于可靠性:当 LLM agent 自适应地修改特征、模型代码和训练数据来提升验证集时,哪些改进真的能泛化到没见过的留出测试集?方法把"发现"和"认证"分开——每个被验证集选中的配置都被冻结、从头重训、在隔离的测试集上只评一次——并用文件级的消融锁定,让每次试验只改一个维度(特征、模型或数据)。在36个端点上它展示了正向的留出收益,但也暴露了两种"不可迁移"特征(选择方差和分布偏移),冷静地提醒我们:验证集的收益不会自动等于真实收益。
https://x.com/BiologyAIDaily/status/2070161121663967346
一篇关于分子性质预测的闭环 Auto Research 的深入、严谨的论文,关键在于可靠性:当 LLM agent 自适应地修改特征、模型代码和训练数据来提升验证集时,哪些改进真的能泛化到没见过的留出测试集?方法把"发现"和"认证"分开——每个被验证集选中的配置都被冻结、从头重训、在隔离的测试集上只评一次——并用文件级的消融锁定,让每次试验只改一个维度(特征、模型或数据)。在36个端点上它展示了正向的留出收益,但也暴露了两种"不可迁移"特征(选择方差和分布偏移),冷静地提醒我们:验证集的收益不会自动等于真实收益。
#12
@jaseweston
https://x.com/jaseweston/status/2070117091521204521
一个值得跟踪的研究主张:真正推动前沿的 autoresearch 关键在于更好的数据——他们称之为 Autodata。核心思想是把"agentic 数据生成"作为一种把增加的推理算力转化为更高质量模型训练的方式,在计算机科学、法律和数学问题上都比经典合成数据方法有提升。他们还展示了如何元优化这个"数据科学家 agent",让它生成更强的数据。这是把 autoresearch 框定为"数据生成循环"而非仅仅"跑实验循环"的具体表述。
https://x.com/jaseweston/status/2070117091521204521
一个值得跟踪的研究主张:真正推动前沿的 autoresearch 关键在于更好的数据——他们称之为 Autodata。核心思想是把"agentic 数据生成"作为一种把增加的推理算力转化为更高质量模型训练的方式,在计算机科学、法律和数学问题上都比经典合成数据方法有提升。他们还展示了如何元优化这个"数据科学家 agent",让它生成更强的数据。这是把 autoresearch 框定为"数据生成循环"而非仅仅"跑实验循环"的具体表述。
#13
@nodescribe89
https://x.com/nodescribe89/status/2070134011251540252
详细看看 MiMoCode,小米开源(MIT 协议)的终端编码 agent(两周从0到1万 star),口号是"模型与 agent 共同进化"。它是 OpenCode 的一个分支、加了一层自我改进:它维护一个持久的 MEMORY.md,由两个命令喂养——/dream 扫描最近的会话,把持久知识拉进记忆、丢掉过时条目;/distill 盯着你反复手动重复的步骤,把高置信度的打包成可复用的 skill、子 agent 或命令。还有一个 /goal 停止条件,由一个独立的裁判模型检查,直接针对那种毁掉自主运行的、乐观的"完成了"。这是一个真正接在编码 agent 上的自我改进循环。
https://x.com/nodescribe89/status/2070134011251540252
详细看看 MiMoCode,小米开源(MIT 协议)的终端编码 agent(两周从0到1万 star),口号是"模型与 agent 共同进化"。它是 OpenCode 的一个分支、加了一层自我改进:它维护一个持久的 MEMORY.md,由两个命令喂养——/dream 扫描最近的会话,把持久知识拉进记忆、丢掉过时条目;/distill 盯着你反复手动重复的步骤,把高置信度的打包成可复用的 skill、子 agent 或命令。还有一个 /goal 停止条件,由一个独立的裁判模型检查,直接针对那种毁掉自主运行的、乐观的"完成了"。这是一个真正接在编码 agent 上的自我改进循环。
#14
@nosp321
https://x.com/nosp321/status/2070140491878764588
一个非编码领域的循环:把一个完全自主的交易系统当作"循环工程"来搭。这份拆解列出了任何可用循环的6个组件(自动化、skill、状态文件、验证器、worktree、连接器)和交易循环的5个阶段(数据 → 信号生成 → 验证 → 执行 → 风险监控),并采用"制单-审单"分离,由一个独立 agent 来验证信号。自我改进的部分是:每一次亏损都被记录为一条教训、用来改进系统,让你从"我跑几个测试"走向"系统在我睡觉时运行"。这是把 autoresearch 循环应用到市场上的清晰模板。
https://x.com/nosp321/status/2070140491878764588
一个非编码领域的循环:把一个完全自主的交易系统当作"循环工程"来搭。这份拆解列出了任何可用循环的6个组件(自动化、skill、状态文件、验证器、worktree、连接器)和交易循环的5个阶段(数据 → 信号生成 → 验证 → 执行 → 风险监控),并采用"制单-审单"分离,由一个独立 agent 来验证信号。自我改进的部分是:每一次亏损都被记录为一条教训、用来改进系统,让你从"我跑几个测试"走向"系统在我睡觉时运行"。这是把 autoresearch 循环应用到市场上的清晰模板。
#15
@IBuzovskyi
https://x.com/IBuzovskyi/status/2070067409130537316
一个具体的自我改进知识系统:Hermes Agent 自带一个 LLM Wiki skill(Karpathy 的模式),把知识编译一次、保持更新,而不是像 RAG 那样每次查询都重新发现。喂给它一个来源,它就写出一个结构化的 markdown 页面、自动链接到相关页面、标记矛盾、更新受影响的页面——每加一条,图就更密。你用 cron 任务自动化这个增长("每天摄入今天的会话"、"每周查 arXiv 的新论文"),于是它从第一个月50条零散条目,长到第六个月1000多条互相引用的条目。agent 变聪明是因为知识库变聪明了——整夜、自己长大。
https://x.com/IBuzovskyi/status/2070067409130537316
一个具体的自我改进知识系统:Hermes Agent 自带一个 LLM Wiki skill(Karpathy 的模式),把知识编译一次、保持更新,而不是像 RAG 那样每次查询都重新发现。喂给它一个来源,它就写出一个结构化的 markdown 页面、自动链接到相关页面、标记矛盾、更新受影响的页面——每加一条,图就更密。你用 cron 任务自动化这个增长("每天摄入今天的会话"、"每周查 arXiv 的新论文"),于是它从第一个月50条零散条目,长到第六个月1000多条互相引用的条目。agent 变聪明是因为知识库变聪明了——整夜、自己长大。
#16
@0xbelorix
https://x.com/0xbelorix/status/2070124935532445932
对"自我改进"到底是什么的清晰解释,还带一个真实结果:Harvey 打开了 Anthropic 新的 Dreaming 功能,看着它的法律 agent 把任务完成率提升到6倍。Dreaming 是一个在 agent 会话之间运行的定时任务——它读取最多100份过往转录稿、合并重复、替换过时笔记、为下一次运行写出一个干净的记忆库。Anthropic 自己的说法是:模型没有变,没有权重更新、没有微调;改进的是 agent 每次任务开始时读取的那套精心整理的纯文本笔记。不是更聪明的模型——是套在同一个模型外面、更锋利的循环。
https://x.com/0xbelorix/status/2070124935532445932
对"自我改进"到底是什么的清晰解释,还带一个真实结果:Harvey 打开了 Anthropic 新的 Dreaming 功能,看着它的法律 agent 把任务完成率提升到6倍。Dreaming 是一个在 agent 会话之间运行的定时任务——它读取最多100份过往转录稿、合并重复、替换过时笔记、为下一次运行写出一个干净的记忆库。Anthropic 自己的说法是:模型没有变,没有权重更新、没有微调;改进的是 agent 每次任务开始时读取的那套精心整理的纯文本笔记。不是更聪明的模型——是套在同一个模型外面、更锋利的循环。
#17
@luckeyfaraday
https://x.com/luckeyfaraday/status/2070130307903246428
针对一篇自我进化 agent 的论文,他论证道:Build → Reflect → Curate → Reuse 这个循环正是"结构胜过一次性提示"的原因——agent 真的会随时间变好,而不是每次会话都重置。他还开源了 athena-loops,作为一个跑这些结构化、自我改进循环的实用 harness,带有合适的记忆、验证和编排。对任何想动手玩这个循环模式、而不只是读读文章的人来说,这是个真工具。
https://x.com/luckeyfaraday/status/2070130307903246428
针对一篇自我进化 agent 的论文,他论证道:Build → Reflect → Curate → Reuse 这个循环正是"结构胜过一次性提示"的原因——agent 真的会随时间变好,而不是每次会话都重置。他还开源了 athena-loops,作为一个跑这些结构化、自我改进循环的实用 harness,带有合适的记忆、验证和编排。对任何想动手玩这个循环模式、而不只是读读文章的人来说,这是个真工具。
#18
@SciTechera
https://x.com/SciTechera/status/2070197654144135241
Perplexity 推出了 Brain,一个用于其 Computer AI agent 的自我改进记忆系统,会从已完成的任务和工作流中学习。Brain 不只是存偏好,而是把用户行为记入一张 Context Graph、并建一个个人 LLM Wiki,让 agent 每开始一个新任务时,都更深地理解用户的项目、来源和过往决策。Perplexity 称在内部测试中 Brain 把答案准确率提升了25%、召回率提升了16%。又一个主流产品收敛到同一个想法上:让 agent 从经验中学习,而不只是记住。
https://x.com/SciTechera/status/2070197654144135241
Perplexity 推出了 Brain,一个用于其 Computer AI agent 的自我改进记忆系统,会从已完成的任务和工作流中学习。Brain 不只是存偏好,而是把用户行为记入一张 Context Graph、并建一个个人 LLM Wiki,让 agent 每开始一个新任务时,都更深地理解用户的项目、来源和过往决策。Perplexity 称在内部测试中 Brain 把答案准确率提升了25%、召回率提升了16%。又一个主流产品收敛到同一个想法上:让 agent 从经验中学习,而不只是记住。
#19
@VenelinVidenov
https://x.com/VenelinVidenov/status/2070158968006082785
一个引人注目的"主权 AI"配置:他公司的整个 AI 层跑在4张 GB10 上,没有任何前沿 API 账单、没有任何数据离开他的网络。每台机器跑一个"脑"——一个带8个热插拔 LoRA 的30B MoE 品牌脑、一个36B 的 agent 指挥官、一个27B 长上下文模型,外加媒体和训练。让他不再为推理付费的那个数字是:单节点256并发下1,432 tok/s,而当他切到本地后,约57个一直因 API 上限悄悄死掉的后台 agent 全都活了过来。最上面坐着一个7×24小时指挥整个机群的持久 agent,下一步是一队自我改进的工作 agent。
https://x.com/VenelinVidenov/status/2070158968006082785
一个引人注目的"主权 AI"配置:他公司的整个 AI 层跑在4张 GB10 上,没有任何前沿 API 账单、没有任何数据离开他的网络。每台机器跑一个"脑"——一个带8个热插拔 LoRA 的30B MoE 品牌脑、一个36B 的 agent 指挥官、一个27B 长上下文模型,外加媒体和训练。让他不再为推理付费的那个数字是:单节点256并发下1,432 tok/s,而当他切到本地后,约57个一直因 API 上限悄悄死掉的后台 agent 全都活了过来。最上面坐着一个7×24小时指挥整个机群的持久 agent,下一步是一队自我改进的工作 agent。
#20
@dragosroua
https://x.com/dragosroua/status/2070013949245055226
一个很接地气的一手 agent 循环:他在 App Store 有10个 app,每个的设置页都互相推广另外9个,他想给每个 app 配10个不同的推广码、以便追踪从设置页的兑换。搭这个循环的提示时间总共15分钟;agent 干活35分钟,包括打版本、归档、上传到 App Store;并行生成推广码25分钟。顺序算约1小时15分,实际约50分钟(因为他在 agent 干活时同时加码)——估计省了4-5小时,外加在10个 app 上下文之间切换的认知负担。
https://x.com/dragosroua/status/2070013949245055226
一个很接地气的一手 agent 循环:他在 App Store 有10个 app,每个的设置页都互相推广另外9个,他想给每个 app 配10个不同的推广码、以便追踪从设置页的兑换。搭这个循环的提示时间总共15分钟;agent 干活35分钟,包括打版本、归档、上传到 App Store;并行生成推广码25分钟。顺序算约1小时15分,实际约50分钟(因为他在 agent 干活时同时加码)——估计省了4-5小时,外加在10个 app 上下文之间切换的认知负担。
#21
@Stoff81
https://x.com/Stoff81/status/2070056953586593892
一个他称之为"代码园艺"的精巧个人 agent 循环:每周一次 Fable(暂时用 Opus)审计、把结果提交到仓库,然后 Rowan 在空闲时从中挑任务、提 PR,Quinn 审查,Rowan 处理审查意见、获批后合并——一个自我修复的代码库。这是把有名字的 agent 接进一个持续维护循环、而不是一次性任务的、小而具体的例子。
https://x.com/Stoff81/status/2070056953586593892
一个他称之为"代码园艺"的精巧个人 agent 循环:每周一次 Fable(暂时用 Opus)审计、把结果提交到仓库,然后 Rowan 在空闲时从中挑任务、提 PR,Quinn 审查,Rowan 处理审查意见、获批后合并——一个自我修复的代码库。这是把有名字的 agent 接进一个持续维护循环、而不是一次性任务的、小而具体的例子。
#22
@ruima
https://x.com/ruima/status/2070198639004459212
一段诚实的搭建中反思:他搭自己第一个比较复杂的长跑 agent 循环、搭到约三小时、有点挫败——然后他突然意识到,自己基本上是在让它做一个 MBA 级别的研究项目,那种活儿一个受过良好教育的通才要全职干好几周。而他却能在这周末前让它跑起来,同时还并行处理好几个更小的项目。这是一个很接地气的提醒:我们多容易忘记如今的新基线已经多疯狂。
https://x.com/ruima/status/2070198639004459212
一段诚实的搭建中反思:他搭自己第一个比较复杂的长跑 agent 循环、搭到约三小时、有点挫败——然后他突然意识到,自己基本上是在让它做一个 MBA 级别的研究项目,那种活儿一个受过良好教育的通才要全职干好几周。而他却能在这周末前让它跑起来,同时还并行处理好几个更小的项目。这是一个很接地气的提醒:我们多容易忘记如今的新基线已经多疯狂。
#23
@dxverm
https://x.com/dxverm/status/2070250719261704523
一个能便宜地闭环的有用工具:Qwen 发布了 Qwen-AgentWorld-35B-A3B,一个35B MoE、约3B 激活参数,它不是被训练成聊天模型,而是一个"语言世界模型",用来预测 agent 采取某个动作后环境会返回什么。它覆盖 MCP/工具调用、搜索、终端、软件工程、安卓、网页和操作系统 GUI。它的价值在于模拟 agent 循环里"环境"那一侧——给定动作历史和一个新工具,它预测结果,从而减少了"为了验证状态而真去执行每个动作"的需要,也在全上下文读取上少烧 token。
https://x.com/dxverm/status/2070250719261704523
一个能便宜地闭环的有用工具:Qwen 发布了 Qwen-AgentWorld-35B-A3B,一个35B MoE、约3B 激活参数,它不是被训练成聊天模型,而是一个"语言世界模型",用来预测 agent 采取某个动作后环境会返回什么。它覆盖 MCP/工具调用、搜索、终端、软件工程、安卓、网页和操作系统 GUI。它的价值在于模拟 agent 循环里"环境"那一侧——给定动作历史和一个新工具,它预测结果,从而减少了"为了验证状态而真去执行每个动作"的需要,也在全上下文读取上少烧 token。
#24
@_philschmid
https://x.com/_philschmid/status/2070177135453434183
一个具体、可复现的 agent 循环快速上手:在 Gemini 3.5 Flash 拿到跨浏览器、移动端和桌面的原生 computer use 之后,他整理了一份控制安卓手机的指南——一个脚本从终端装好模拟器,一个基础 agent 循环用 interactions API 加 `adb` 控制手机,还能连远程设备,同样的模式通过 simctl 也适用于 iOS。对任何想真正搭起一个真实设备控制循环、而不是看 demo 的人都有用。
https://x.com/_philschmid/status/2070177135453434183
一个具体、可复现的 agent 循环快速上手:在 Gemini 3.5 Flash 拿到跨浏览器、移动端和桌面的原生 computer use 之后,他整理了一份控制安卓手机的指南——一个脚本从终端装好模拟器,一个基础 agent 循环用 interactions API 加 `adb` 控制手机,还能连远程设备,同样的模式通过 simctl 也适用于 iOS。对任何想真正搭起一个真实设备控制循环、而不是看 demo 的人都有用。
#25
@DMMeacham
https://x.com/DMMeacham/status/2069970883804815692
一篇清醒的解释,讲为什么"循环"改变了谁有价值:一个 prompt 是你敲一条指令、读一个答案——你就是那个循环;而一个 agent 循环把整个周期交给机器,它自己拉取工作、用真实工具行动、检查自己的结果、再来一遍,中间没人坐在椅子上。这就是为什么认真的用户一次跑几十上百个、整夜清工单。但一台给自己作业打分的机器每次都给自己打 A,所以瓶颈悄悄从"干活"转移到了"在机器自信却错误时抓住它"——而这适用于任何工作,不只是写代码。
https://x.com/DMMeacham/status/2069970883804815692
一篇清醒的解释,讲为什么"循环"改变了谁有价值:一个 prompt 是你敲一条指令、读一个答案——你就是那个循环;而一个 agent 循环把整个周期交给机器,它自己拉取工作、用真实工具行动、检查自己的结果、再来一遍,中间没人坐在椅子上。这就是为什么认真的用户一次跑几十上百个、整夜清工单。但一台给自己作业打分的机器每次都给自己打 A,所以瓶颈悄悄从"干活"转移到了"在机器自信却错误时抓住它"——而这适用于任何工作,不只是写代码。
#26
@marfinxx
https://x.com/marfinxx/status/2070086349193883785
一个具体的本地 agent 循环配置:一位苹果开发者的 WWDC 演讲展示了整个 agentic 循环完全在 Apple 芯片上本地运行——它推理、调用工具、决定下一步,全程没有云 API。硬件性能取决于内存带宽:Mac Mini M4 用统一内存无头运行 Gemma 27B,GMKtec EVO X2 在 BIOS 里分配96GB 显存来加载 Llama 70B,NVIDIA DGX Spark 跑 FP4 企业级负载。MLX 加速本地执行循环,把每 token 成本降到零、让你的数据库离线、抵御提示注入攻击。这是"把循环跑在你自己硬件上"的隐私与成本论证。
https://x.com/marfinxx/status/2070086349193883785
一个具体的本地 agent 循环配置:一位苹果开发者的 WWDC 演讲展示了整个 agentic 循环完全在 Apple 芯片上本地运行——它推理、调用工具、决定下一步,全程没有云 API。硬件性能取决于内存带宽:Mac Mini M4 用统一内存无头运行 Gemma 27B,GMKtec EVO X2 在 BIOS 里分配96GB 显存来加载 Llama 70B,NVIDIA DGX Spark 跑 FP4 企业级负载。MLX 加速本地执行循环,把每 token 成本降到零、让你的数据库离线、抵御提示注入攻击。这是"把循环跑在你自己硬件上"的隐私与成本论证。
#27
@dunik_7
https://x.com/dunik_7/status/2070161645897212375
一份有用的领域地图:一篇55页的综述,由15位研究者合力整理,囊括了 AI agent 在你部署之后能自我重写的每一种已知方式。它点出的问题是:今天几乎每个 agent 都是冻结的——你手工配置一次,它就再也不会自己变好。自我进化的 agent 把这翻转成一个循环:输入 → agent 行动 → 环境反馈 → 优化器重写 agent → 重复,并列出了 agent 学会重写的每一部分(提示、记忆、工具、工作流)。论点是:静态的、手工配置的 agent 已经是旧范式了。
https://x.com/dunik_7/status/2070161645897212375
一份有用的领域地图:一篇55页的综述,由15位研究者合力整理,囊括了 AI agent 在你部署之后能自我重写的每一种已知方式。它点出的问题是:今天几乎每个 agent 都是冻结的——你手工配置一次,它就再也不会自己变好。自我进化的 agent 把这翻转成一个循环:输入 → agent 行动 → 环境反馈 → 优化器重写 agent → 重复,并列出了 agent 学会重写的每一部分(提示、记忆、工具、工作流)。论点是:静态的、手工配置的 agent 已经是旧范式了。
#28
@TeksCreate
https://x.com/TeksCreate/status/2070106086669992195
一个安全领域具体的离线 agentic 循环工具:METATRON 是一个 100% 离线运行的 AI 渗透测试助手——没有云、没有 API key。你给它一个目标 IP 或域名,它运行真实的侦察工具(nmap、whois、whatweb、curl、dig、nikto),把一切喂给通过 Ollama 运行的本地 Qwen 3.5,分析漏洞、建议利用方式、推荐修复。有意思的是那个循环:AI 能根据自己的发现在分析中途请求更多工具运行,完整扫描历史存进 MariaDB。这是"本地优先、自驱动的安全工具"长什么样的清晰画面。
https://x.com/TeksCreate/status/2070106086669992195
一个安全领域具体的离线 agentic 循环工具:METATRON 是一个 100% 离线运行的 AI 渗透测试助手——没有云、没有 API key。你给它一个目标 IP 或域名,它运行真实的侦察工具(nmap、whois、whatweb、curl、dig、nikto),把一切喂给通过 Ollama 运行的本地 Qwen 3.5,分析漏洞、建议利用方式、推荐修复。有意思的是那个循环:AI 能根据自己的发现在分析中途请求更多工具运行,完整扫描历史存进 MariaDB。这是"本地优先、自驱动的安全工具"长什么样的清晰画面。
📡 生态产品雷达
生态产品雷达
今天 autoresearch / 循环相关帖子中被提到3次以上的工具与框架:
alphaXiv(autoarxiv / argithub)— URL 小技巧式的 autoresearch 入口;把任意 arXiv 或 GitHub URL 里改一个词,就能让 agent 对它跑研究。
Hermes Agent(Nous Research)— 带 LLM Wiki / 第二大脑的开源自我改进 agent,通过 cron 整夜生长。
Codex — 驱动 ENPIRE 机器人机群 autoresearch 的 agent,也是恒久的跨模型审计搭档。
GLM 5.2 — 人们出于成本考虑真正用来跑 autoresearch 的开源模型。
Atlas Graph — 把一篇 arXiv 论文变成可复现、可分叉的实验图,用于规模化 autoresearch。
Karpathy 的 nanochat / nanogpt — 几乎每个 autoresearch 实验都在其上做优化的共享基准底座。
Anthropic Dreaming — 支撑"无需权重更新即可自我改进"那些结果的、会话之间的记忆任务。
今天 autoresearch / 循环相关帖子中被提到3次以上的工具与框架:
alphaXiv(autoarxiv / argithub)— URL 小技巧式的 autoresearch 入口;把任意 arXiv 或 GitHub URL 里改一个词,就能让 agent 对它跑研究。
Hermes Agent(Nous Research)— 带 LLM Wiki / 第二大脑的开源自我改进 agent,通过 cron 整夜生长。
Codex — 驱动 ENPIRE 机器人机群 autoresearch 的 agent,也是恒久的跨模型审计搭档。
GLM 5.2 — 人们出于成本考虑真正用来跑 autoresearch 的开源模型。
Atlas Graph — 把一篇 arXiv 论文变成可复现、可分叉的实验图,用于规模化 autoresearch。
Karpathy 的 nanochat / nanogpt — 几乎每个 autoresearch 实验都在其上做优化的共享基准底座。
Anthropic Dreaming — 支撑"无需权重更新即可自我改进"那些结果的、会话之间的记忆任务。
评论