Loop 日报: 2026-04-02
#1
3月31日的autoresearch生态很热闹。最大的主题是autoresearch正在从纯代码优化向外扩张。人们把autoresearch loop指向了KV cache压缩、防火墙规则集、Apple Neural Engine推理、RL微调,甚至跨前沿模型的哲学分歧测试。与此同时,Claude Code源码泄露主导了agent loop的讨论,揭示了一个出人意料简单的核心架构,外面包裹着层层上下文管理和权限逻辑。真正的信号是:运行递归改进loop的门槛一直在降低,而用例越来越离谱。
#2
@shannholmberg
https://x.com/shannholmberg/status/2038866414057161145
AutoReason把autoresearch扩展到了没有数字指标可以优化的领域。不是爬一个分数,而是跑一个四个agent的循环:一个写初稿,一个纯批评不修改,第三个根据批评重写,第四个合并两个版本的最好部分。一个盲评评审团选出赢家,循环持续到没有任何东西能打败当前版本。每个agent拿到全新的上下文,防止确认偏差累积。盲评测试中AutoReason拿到35/35满分,第二名只有21分。这可能是本周最有意思的autoresearch概念扩展,因为它彻底破解了"我的问题没有数字"这个反对意见。
https://x.com/shannholmberg/status/2038866414057161145
AutoReason把autoresearch扩展到了没有数字指标可以优化的领域。不是爬一个分数,而是跑一个四个agent的循环:一个写初稿,一个纯批评不修改,第三个根据批评重写,第四个合并两个版本的最好部分。一个盲评评审团选出赢家,循环持续到没有任何东西能打败当前版本。每个agent拿到全新的上下文,防止确认偏差累积。盲评测试中AutoReason拿到35/35满分,第二名只有21分。这可能是本周最有意思的autoresearch概念扩展,因为它彻底破解了"我的问题没有数字"这个反对意见。
#3
@Hevalon
https://x.com/Hevalon/status/2038977575372951930
构建了autoresearch-rl并指向Basilic AI A100上的GRPO微调。一条命令,15次迭代,零人工干预,100%基础设施成功率。GSM8K pass@1从26%基线提升到36%。Hevalon说难的不是搜索算法,而是基础设施。每次RL迭代需要干净的CUDA环境和5-10分钟的A100时间,一个糟糕的超参数就浪费一个小时。这是第一个认真尝试让autoresearch适配RL微调的案例,基础设施挑战是真实的。你不能在工作站上跑这个。
https://x.com/Hevalon/status/2038977575372951930
构建了autoresearch-rl并指向Basilic AI A100上的GRPO微调。一条命令,15次迭代,零人工干预,100%基础设施成功率。GSM8K pass@1从26%基线提升到36%。Hevalon说难的不是搜索算法,而是基础设施。每次RL迭代需要干净的CUDA环境和5-10分钟的A100时间,一个糟糕的超参数就浪费一个小时。这是第一个认真尝试让autoresearch适配RL微调的案例,基础设施挑战是真实的。你不能在工作站上跑这个。
#4
@dhawalc
https://x.com/dhawalc/status/2038889125814903204
在TurboQuant KV cache压缩上跑了一夜autoresearch,达到5.1倍压缩且生成质量匹配FP16。零质量损失。获胜配置:3-bit keys + 1-bit残差符号 + 2-bit values + 对最近token的FP16窗口。起步时准确率0/5(完全不工作),六轮之后每个问题都匹配FP16。突破来自发现get_mask_sizes里一个一行的协议bug,这个bug让之前所有测试都无效。修复之后算法进化才真正生效。TurboQuant论文承诺5倍,autoresearch交付了5.1倍。
https://x.com/dhawalc/status/2038889125814903204
在TurboQuant KV cache压缩上跑了一夜autoresearch,达到5.1倍压缩且生成质量匹配FP16。零质量损失。获胜配置:3-bit keys + 1-bit残差符号 + 2-bit values + 对最近token的FP16窗口。起步时准确率0/5(完全不工作),六轮之后每个问题都匹配FP16。突破来自发现get_mask_sizes里一个一行的协议bug,这个bug让之前所有测试都无效。修复之后算法进化才真正生效。TurboQuant论文承诺5倍,autoresearch交付了5.1倍。
#5
@advait_jayant
https://x.com/advait_jayant/status/2039022806243979696
Divergence Explorer把autoresearch带向了一个完全不同的方向。不是优化指标,而是研究前沿AI模型是否真的思考方式不同,还是已经趋同。一个在OpenGradient上的自主研究者生成了320个硬问题,涵盖伦理、意识、哲学和地缘政治,然后并行发送给GPT-5.2、Claude Opus 4.6、Gemini 2.5 Flash和Grok 4。每个回答在TEE可信执行环境中加密封存。发现:开放式问题产生95%共识。但当系统自己学会强制二选一时,共识降到33%。没有人类切换模式。研究者自主发现了模型只有在你让它们打太极时才会达成一致。
https://x.com/advait_jayant/status/2039022806243979696
Divergence Explorer把autoresearch带向了一个完全不同的方向。不是优化指标,而是研究前沿AI模型是否真的思考方式不同,还是已经趋同。一个在OpenGradient上的自主研究者生成了320个硬问题,涵盖伦理、意识、哲学和地缘政治,然后并行发送给GPT-5.2、Claude Opus 4.6、Gemini 2.5 Flash和Grok 4。每个回答在TEE可信执行环境中加密封存。发现:开放式问题产生95%共识。但当系统自己学会强制二选一时,共识降到33%。没有人类切换模式。研究者自主发现了模型只有在你让它们打太极时才会达成一致。
#6
@ryanmart3n
https://x.com/ryanmart3n/status/2039016764982669435
梳理了完全自主AI开发的缺失拼图。Autoresearch解决agent造模型,Meta-Harness解决agent造agent,但我们还需要Meta-Measure或autobenchmark:agent造评估。Ryan的团队已经开始自动化Terminal-Bench 3.0基准开发中的任务甄别部分,但说真正的解锁是攻克任务生成。分类很清晰:一旦你能自主生成eval,整个构建-测试-改进循环就完全闭合了。
https://x.com/ryanmart3n/status/2039016764982669435
梳理了完全自主AI开发的缺失拼图。Autoresearch解决agent造模型,Meta-Harness解决agent造agent,但我们还需要Meta-Measure或autobenchmark:agent造评估。Ryan的团队已经开始自动化Terminal-Bench 3.0基准开发中的任务甄别部分,但说真正的解锁是攻克任务生成。分类很清晰:一旦你能自主生成eval,整个构建-测试-改进循环就完全闭合了。
#7
@duanebester
https://x.com/duanebester/status/2038825090792480800
用Zig构建了一个agent,自主优化Apple Silicon上的GPU kernel、调度策略和管线架构。它自己编辑Metal shader、跑benchmark、提交改进。MNIST吞吐量:407k图片/秒,MLX是82k(慢5倍),PyTorch MPS是12k(慢34倍)。三者都达到98%准确率,差异纯粹是吞吐。agent发现的关键优化:64批次的命令缓冲区编码、每5个epoch验证一次、GPU argmax kernel做批量评估。agent记录失败实验的摘要,确保不重复走死路。这个记忆细节是区分玩具loop和真正能复合增长的loop的关键。
https://x.com/duanebester/status/2038825090792480800
用Zig构建了一个agent,自主优化Apple Silicon上的GPU kernel、调度策略和管线架构。它自己编辑Metal shader、跑benchmark、提交改进。MNIST吞吐量:407k图片/秒,MLX是82k(慢5倍),PyTorch MPS是12k(慢34倍)。三者都达到98%准确率,差异纯粹是吞吐。agent发现的关键优化:64批次的命令缓冲区编码、每5个epoch验证一次、GPU argmax kernel做批量评估。agent记录失败实验的摘要,确保不重复走死路。这个记忆细节是区分玩具loop和真正能复合增长的loop的关键。
#8
@duanebester
https://x.com/duanebester/status/2039031530232696878
nnzap推理benchmark的后续结果更猛:GPU批量158万推理/秒,比MLX快9.3倍,比PyTorch快3.2倍。CPU单样本延迟从884微秒降到21微秒。全部用Zig实现,零拷贝统一内存,编译时布局,Metal计算着色器。自主agent跑了19个实验,读汇编、写Metal kernel、自动回滚失败。
https://x.com/duanebester/status/2039031530232696878
nnzap推理benchmark的后续结果更猛:GPU批量158万推理/秒,比MLX快9.3倍,比PyTorch快3.2倍。CPU单样本延迟从884微秒降到21微秒。全部用Zig实现,零拷贝统一内存,编译时布局,Metal计算着色器。自主agent跑了19个实验,读汇编、写Metal kernel、自动回滚失败。
#9
@detectiveomee
https://x.com/detectiveomee/status/2039020976214557114
把autoresearch应用于防火墙优化,带有数学正确性证明。系统让LLM提出小改动(交换规则、删除被遮蔽的规则、重新排序),BDD等价检查器证明新规则集行为完全相同,流量感知评分器衡量性能。经典算法先把613条规则缩减到190条(6秒内减少69%)。然后LLM发现了经典代码遗漏的45个跨动作遮蔽,并通过流量感知重排序进一步降低3.5%的加权匹配深度。诚实评价:3.5%在生产环境可能不值10分钟的Opus API调用。但每个改动都附带正确性证明的验证优化loop,这个模式本身值得探索。
https://x.com/detectiveomee/status/2039020976214557114
把autoresearch应用于防火墙优化,带有数学正确性证明。系统让LLM提出小改动(交换规则、删除被遮蔽的规则、重新排序),BDD等价检查器证明新规则集行为完全相同,流量感知评分器衡量性能。经典算法先把613条规则缩减到190条(6秒内减少69%)。然后LLM发现了经典代码遗漏的45个跨动作遮蔽,并通过流量感知重排序进一步降低3.5%的加权匹配深度。诚实评价:3.5%在生产环境可能不值10分钟的Opus API调用。但每个改动都附带正确性证明的验证优化loop,这个模式本身值得探索。
#10
@christinetyip
https://x.com/christinetyip/status/2039040420286521693
把autoresearch从研究问题扩展到真实世界的系统优化。结果:比Apple官方CoreML方案在Apple Neural Engine上快6.31倍。值得注意的是这把loop从"优化模型训练"赛道带到了生产推理基础设施。当你的autoresearch loop能比厂商官方实现找到6倍加速,厂商自己也应该跑这些loop了。
https://x.com/christinetyip/status/2039040420286521693
把autoresearch从研究问题扩展到真实世界的系统优化。结果:比Apple官方CoreML方案在Apple Neural Engine上快6.31倍。值得注意的是这把loop从"优化模型训练"赛道带到了生产推理基础设施。当你的autoresearch loop能比厂商官方实现找到6倍加速,厂商自己也应该跑这些loop了。
#11
@DeepValueBagger
https://x.com/DeepValueBagger/status/2038788897128198210
对OpenClaw和现有深度研究工具失望后,从零开始构建了一个以股票研究为核心的agentic AI平台。核心认知:主流平台数据过时,OpenClaw臃肿到90%功能没人用,多agent处理一半时间搞混哪个agent是哪个。所以他自己搭了一个agentic loop,带记忆、技能、股票研究一等工具,包括免费搜索、agentic浏览器、直接SEC数据访问、价格数据库、RAG索引管线、以及吸收所有财报和MD&A文件的管线。数据平台建好之后,vibe coding UI反而很简单。
https://x.com/DeepValueBagger/status/2038788897128198210
对OpenClaw和现有深度研究工具失望后,从零开始构建了一个以股票研究为核心的agentic AI平台。核心认知:主流平台数据过时,OpenClaw臃肿到90%功能没人用,多agent处理一半时间搞混哪个agent是哪个。所以他自己搭了一个agentic loop,带记忆、技能、股票研究一等工具,包括免费搜索、agentic浏览器、直接SEC数据访问、价格数据库、RAG索引管线、以及吸收所有财报和MD&A文件的管线。数据平台建好之后,vibe coding UI反而很简单。
#12
@koylanai
https://x.com/koylanai/status/2039027239304433767
拆解了Shopify从单次LLM到DSPy和MIPRO专业化子agent的案例研究。对autoresearch最重要的发现:小模型加好架构打败大模型加差架构。自托管的Qwen 3在他们的管线中胜过GPT-5。MIPRO的prompt优化在单体agent上不工作,但在专业化子agent上效果极好。架构决定了优化曲面。隔离目标的干净模块给优化器提供干净信号。这直接适用于任何设计autoresearch loop的人:先架构,后优化。
https://x.com/koylanai/status/2039027239304433767
拆解了Shopify从单次LLM到DSPy和MIPRO专业化子agent的案例研究。对autoresearch最重要的发现:小模型加好架构打败大模型加差架构。自托管的Qwen 3在他们的管线中胜过GPT-5。MIPRO的prompt优化在单体agent上不工作,但在专业化子agent上效果极好。架构决定了优化曲面。隔离目标的干净模块给优化器提供干净信号。这直接适用于任何设计autoresearch loop的人:先架构,后优化。
#13
@DanielMiessler
https://x.com/DanielMiessler/status/2039067001243771117
提出一个挑衅性的早期想法:加密货币可能因autoresearch被应用于量子加密突破或对现有算法的攻击而面临风险。更广泛的说法是autoresearch即将揭示我们做所有事情有多原始。来自知名安全研究员,这值得作为信号来追踪,看看信息安全社区对递归优化loop有多认真。
https://x.com/DanielMiessler/status/2039067001243771117
提出一个挑衅性的早期想法:加密货币可能因autoresearch被应用于量子加密突破或对现有算法的攻击而面临风险。更广泛的说法是autoresearch即将揭示我们做所有事情有多原始。来自知名安全研究员,这值得作为信号来追踪,看看信息安全社区对递归优化loop有多认真。
#14
@OpenBMB
https://x.com/OpenBMB/status/2038987177946980819
清华NLP发布了CPMobius,一个Coach-Player范式,让LLM在完全无数据的环境中自我进化推理能力。Coach生成数学任务,Player通过多数投票和自训练学习解题。Coach使用动态难度过滤,把任务保持在20-80%成功率的甜蜜区间。进度驱动的奖励意味着Coach只有在Player真正变聪明时才赢。在Qwen2.5-Math-7B上,CPMobius总体准确率提升4.9个点,分布外准确率提升5.4个点。这是autoresearch应用于训练管线本身:零外部数据,完全自主,打败了现有的无监督方法。
https://x.com/OpenBMB/status/2038987177946980819
清华NLP发布了CPMobius,一个Coach-Player范式,让LLM在完全无数据的环境中自我进化推理能力。Coach生成数学任务,Player通过多数投票和自训练学习解题。Coach使用动态难度过滤,把任务保持在20-80%成功率的甜蜜区间。进度驱动的奖励意味着Coach只有在Player真正变聪明时才赢。在Qwen2.5-Math-7B上,CPMobius总体准确率提升4.9个点,分布外准确率提升5.4个点。这是autoresearch应用于训练管线本身:零外部数据,完全自主,打败了现有的无监督方法。
#15
@JIACHENLIU8
https://x.com/JIACHENLIU8/status/2038833454083883237
做了一个容易被忽略的清晰区分:autoresearch是关于研究管线的,meta-harness是关于端到端优化脚手架的。Meta-harness更难,因为信用分配跨越代码历史和所有先前轨迹。关键问题:当评估器对哪个改动导致了增益判断错误但很自信时会怎样?这是agent自我改进的信用分配问题,目前还没人解决。
https://x.com/JIACHENLIU8/status/2038833454083883237
做了一个容易被忽略的清晰区分:autoresearch是关于研究管线的,meta-harness是关于端到端优化脚手架的。Meta-harness更难,因为信用分配跨越代码历史和所有先前轨迹。关键问题:当评估器对哪个改动导致了增益判断错误但很自信时会怎样?这是agent自我改进的信用分配问题,目前还没人解决。
#16
@NandinoAI
https://x.com/NandinoAI/status/2038818569413156979
对自我改进编码工具的犀利批评。改进指标通常是"生成的代码通过自己的测试",这是一个封闭反馈回路。agent变得越来越会满足自己,而不是满足用户。真正的突破在于改进信号来自生产环境指标,而不是模型给自己打分。这是任何autoresearch设置的根本有效性问题:你的指标真的在衡量你关心的东西吗?
https://x.com/NandinoAI/status/2038818569413156979
对自我改进编码工具的犀利批评。改进指标通常是"生成的代码通过自己的测试",这是一个封闭反馈回路。agent变得越来越会满足自己,而不是满足用户。真正的突破在于改进信号来自生产环境指标,而不是模型给自己打分。这是任何autoresearch设置的根本有效性问题:你的指标真的在衡量你关心的东西吗?
#17
@drewsky1
https://x.com/drewsky1/status/2039007552243896476
在3090上用不同的profile运行不同的autoresearch项目过夜。一个把论文和规格说明送进硬件设计的优化loop。另一个管理产品原型,做API集成、搜索查询优化、平台TOS合规检查。都用Opus写的自定义skill。这是autoresearch用于非代码应用的实际例子:硬件设计优化和产品开发工作流7x24运行。
https://x.com/drewsky1/status/2039007552243896476
在3090上用不同的profile运行不同的autoresearch项目过夜。一个把论文和规格说明送进硬件设计的优化loop。另一个管理产品原型,做API集成、搜索查询优化、平台TOS合规检查。都用Opus写的自定义skill。这是autoresearch用于非代码应用的实际例子:硬件设计优化和产品开发工作流7x24运行。
#18
@jaredgoering
https://x.com/jaredgoering/status/2039019004510056737
把一个开源ML搜索引擎指向了用智能手机点击数据检测帕金森病。不到2分钟跑了85个实验,比标准autoresearch快至少10倍。比最佳已发表的控制混杂因素结果高出8.8个百分点。医学AI研究正是autoresearch可能产生超大影响的领域,因为指标(诊断准确率)定义明确,而模型架构和特征的搜索空间巨大。
https://x.com/jaredgoering/status/2039019004510056737
把一个开源ML搜索引擎指向了用智能手机点击数据检测帕金森病。不到2分钟跑了85个实验,比标准autoresearch快至少10倍。比最佳已发表的控制混杂因素结果高出8.8个百分点。医学AI研究正是autoresearch可能产生超大影响的领域,因为指标(诊断准确率)定义明确,而模型架构和特征的搜索空间巨大。
#19
@vin_asia
https://x.com/vin_asia/status/2038979358648639537
在旧GPU上24小时不间断运行autoresearch loop,持续优化代码、SQL查询和业务流程,全部无人值守。当你跑过夜loop时每秒token数变得无关紧要。这是"静默部署"模式:人们已经在把autoresearch作为始终运行的基础设施用于业务流程优化,不只是研究实验。
https://x.com/vin_asia/status/2038979358648639537
在旧GPU上24小时不间断运行autoresearch loop,持续优化代码、SQL查询和业务流程,全部无人值守。当你跑过夜loop时每秒token数变得无关紧要。这是"静默部署"模式:人们已经在把autoresearch作为始终运行的基础设施用于业务流程优化,不只是研究实验。
📡 生态产品雷达
生态产品雷达
#20
@PrimeIntellect
https://x.com/PrimeIntellect/status/2038787571795599549
重点介绍Paradigm AI的Flywheel,作为auto-research精神下涌现的优秀项目之一。PrimeIntellect在追踪基于autoresearch概念构建的工具生态,Flywheel作为运行优化loop的更结构化框架正在获得关注。
https://x.com/PrimeIntellect/status/2038787571795599549
重点介绍Paradigm AI的Flywheel,作为auto-research精神下涌现的优秀项目之一。PrimeIntellect在追踪基于autoresearch概念构建的工具生态,Flywheel作为运行优化loop的更结构化框架正在获得关注。
#21
@needhelptho
https://x.com/needhelptho/status/2039030060783636991
开源了Karpathy autoresearch的通用化版本,让你可以优化任意代码。从特定研究工具到通用代码优化器是自然演进,开源版本降低了入门门槛。
https://x.com/needhelptho/status/2039030060783636991
开源了Karpathy autoresearch的通用化版本,让你可以优化任意代码。从特定研究工具到通用代码优化器是自然演进,开源版本降低了入门门槛。
#22
@iuditg
https://x.com/iuditg/status/2039030066496332171
预告了/autoresearch命令的重大更新。具体改了什么还没透露,但工具在活跃开发说明社区需求是真实的。
https://x.com/iuditg/status/2039030066496332171
预告了/autoresearch命令的重大更新。具体改了什么还没透露,但工具在活跃开发说明社区需求是真实的。
#23
@AI_Boilerplate
https://x.com/AI_Boilerplate/status/2038881727397888186
发布了Autoresearch Agent作为免费agent skill,一条命令通过promptcreek安装。这种打包方式让不想从零搭建基础设施的人也能用上autoresearch。
https://x.com/AI_Boilerplate/status/2038881727397888186
发布了Autoresearch Agent作为免费agent skill,一条命令通过promptcreek安装。这种打包方式让不想从零搭建基础设施的人也能用上autoresearch。
评论