2026年4月1日loop

Loop 日报: 2026-04-02

💡#1

3月31日的autoresearch生态很热闹。最大的主题是autoresearch正在从纯代码优化向外扩张。人们把autoresearch loop指向了KV cache压缩、防火墙规则集、Apple Neural Engine推理、RL微调，甚至跨前沿模型的哲学分歧测试。与此同时，Claude Code源码泄露主导了agent loop的讨论，揭示了一个出人意料简单的核心架构，外面包裹着层层上下文管理和权限逻辑。真正的信号是：运行递归改进loop的门槛一直在降低，而用例越来越离谱。

💡#2

@shannholmberg
https://x.com/shannholmberg/status/2038866414057161145
AutoReason把autoresearch扩展到了没有数字指标可以优化的领域。不是爬一个分数，而是跑一个四个agent的循环：一个写初稿，一个纯批评不修改，第三个根据批评重写，第四个合并两个版本的最好部分。一个盲评评审团选出赢家，循环持续到没有任何东西能打败当前版本。每个agent拿到全新的上下文，防止确认偏差累积。盲评测试中AutoReason拿到35/35满分，第二名只有21分。这可能是本周最有意思的autoresearch概念扩展，因为它彻底破解了"我的问题没有数字"这个反对意见。

💡#3

@Hevalon
https://x.com/Hevalon/status/2038977575372951930
构建了autoresearch-rl并指向Basilic AI A100上的GRPO微调。一条命令，15次迭代，零人工干预，100%基础设施成功率。GSM8K pass@1从26%基线提升到36%。Hevalon说难的不是搜索算法，而是基础设施。每次RL迭代需要干净的CUDA环境和5-10分钟的A100时间，一个糟糕的超参数就浪费一个小时。这是第一个认真尝试让autoresearch适配RL微调的案例，基础设施挑战是真实的。你不能在工作站上跑这个。

💡#4

@dhawalc
https://x.com/dhawalc/status/2038889125814903204
在TurboQuant KV cache压缩上跑了一夜autoresearch，达到5.1倍压缩且生成质量匹配FP16。零质量损失。获胜配置：3-bit keys + 1-bit残差符号 + 2-bit values + 对最近token的FP16窗口。起步时准确率0/5（完全不工作），六轮之后每个问题都匹配FP16。突破来自发现get_mask_sizes里一个一行的协议bug，这个bug让之前所有测试都无效。修复之后算法进化才真正生效。TurboQuant论文承诺5倍，autoresearch交付了5.1倍。

💡#5

@advait_jayant
https://x.com/advait_jayant/status/2039022806243979696
Divergence Explorer把autoresearch带向了一个完全不同的方向。不是优化指标，而是研究前沿AI模型是否真的思考方式不同，还是已经趋同。一个在OpenGradient上的自主研究者生成了320个硬问题，涵盖伦理、意识、哲学和地缘政治，然后并行发送给GPT-5.2、Claude Opus 4.6、Gemini 2.5 Flash和Grok 4。每个回答在TEE可信执行环境中加密封存。发现：开放式问题产生95%共识。但当系统自己学会强制二选一时，共识降到33%。没有人类切换模式。研究者自主发现了模型只有在你让它们打太极时才会达成一致。

💡#6

@ryanmart3n
https://x.com/ryanmart3n/status/2039016764982669435
梳理了完全自主AI开发的缺失拼图。Autoresearch解决agent造模型，Meta-Harness解决agent造agent，但我们还需要Meta-Measure或autobenchmark：agent造评估。Ryan的团队已经开始自动化Terminal-Bench 3.0基准开发中的任务甄别部分，但说真正的解锁是攻克任务生成。分类很清晰：一旦你能自主生成eval，整个构建-测试-改进循环就完全闭合了。

💡#7

@duanebester
https://x.com/duanebester/status/2038825090792480800
用Zig构建了一个agent，自主优化Apple Silicon上的GPU kernel、调度策略和管线架构。它自己编辑Metal shader、跑benchmark、提交改进。MNIST吞吐量：407k图片/秒，MLX是82k（慢5倍），PyTorch MPS是12k（慢34倍）。三者都达到98%准确率，差异纯粹是吞吐。agent发现的关键优化：64批次的命令缓冲区编码、每5个epoch验证一次、GPU argmax kernel做批量评估。agent记录失败实验的摘要，确保不重复走死路。这个记忆细节是区分玩具loop和真正能复合增长的loop的关键。

💡#8

@duanebester
https://x.com/duanebester/status/2039031530232696878
nnzap推理benchmark的后续结果更猛：GPU批量158万推理/秒，比MLX快9.3倍，比PyTorch快3.2倍。CPU单样本延迟从884微秒降到21微秒。全部用Zig实现，零拷贝统一内存，编译时布局，Metal计算着色器。自主agent跑了19个实验，读汇编、写Metal kernel、自动回滚失败。

💡#9

@detectiveomee
https://x.com/detectiveomee/status/2039020976214557114
把autoresearch应用于防火墙优化，带有数学正确性证明。系统让LLM提出小改动（交换规则、删除被遮蔽的规则、重新排序），BDD等价检查器证明新规则集行为完全相同，流量感知评分器衡量性能。经典算法先把613条规则缩减到190条（6秒内减少69%）。然后LLM发现了经典代码遗漏的45个跨动作遮蔽，并通过流量感知重排序进一步降低3.5%的加权匹配深度。诚实评价：3.5%在生产环境可能不值10分钟的Opus API调用。但每个改动都附带正确性证明的验证优化loop，这个模式本身值得探索。

💡#10

@christinetyip
https://x.com/christinetyip/status/2039040420286521693
把autoresearch从研究问题扩展到真实世界的系统优化。结果：比Apple官方CoreML方案在Apple Neural Engine上快6.31倍。值得注意的是这把loop从"优化模型训练"赛道带到了生产推理基础设施。当你的autoresearch loop能比厂商官方实现找到6倍加速，厂商自己也应该跑这些loop了。

💡#11

@DeepValueBagger
https://x.com/DeepValueBagger/status/2038788897128198210
对OpenClaw和现有深度研究工具失望后，从零开始构建了一个以股票研究为核心的agentic AI平台。核心认知：主流平台数据过时，OpenClaw臃肿到90%功能没人用，多agent处理一半时间搞混哪个agent是哪个。所以他自己搭了一个agentic loop，带记忆、技能、股票研究一等工具，包括免费搜索、agentic浏览器、直接SEC数据访问、价格数据库、RAG索引管线、以及吸收所有财报和MD&A文件的管线。数据平台建好之后，vibe coding UI反而很简单。

💡#12

@koylanai
https://x.com/koylanai/status/2039027239304433767
拆解了Shopify从单次LLM到DSPy和MIPRO专业化子agent的案例研究。对autoresearch最重要的发现：小模型加好架构打败大模型加差架构。自托管的Qwen 3在他们的管线中胜过GPT-5。MIPRO的prompt优化在单体agent上不工作，但在专业化子agent上效果极好。架构决定了优化曲面。隔离目标的干净模块给优化器提供干净信号。这直接适用于任何设计autoresearch loop的人：先架构，后优化。

💡#13

@DanielMiessler
https://x.com/DanielMiessler/status/2039067001243771117
提出一个挑衅性的早期想法：加密货币可能因autoresearch被应用于量子加密突破或对现有算法的攻击而面临风险。更广泛的说法是autoresearch即将揭示我们做所有事情有多原始。来自知名安全研究员，这值得作为信号来追踪，看看信息安全社区对递归优化loop有多认真。

💡#14

@OpenBMB
https://x.com/OpenBMB/status/2038987177946980819
清华NLP发布了CPMobius，一个Coach-Player范式，让LLM在完全无数据的环境中自我进化推理能力。Coach生成数学任务，Player通过多数投票和自训练学习解题。Coach使用动态难度过滤，把任务保持在20-80%成功率的甜蜜区间。进度驱动的奖励意味着Coach只有在Player真正变聪明时才赢。在Qwen2.5-Math-7B上，CPMobius总体准确率提升4.9个点，分布外准确率提升5.4个点。这是autoresearch应用于训练管线本身：零外部数据，完全自主，打败了现有的无监督方法。

💡#15

@JIACHENLIU8
https://x.com/JIACHENLIU8/status/2038833454083883237
做了一个容易被忽略的清晰区分：autoresearch是关于研究管线的，meta-harness是关于端到端优化脚手架的。Meta-harness更难，因为信用分配跨越代码历史和所有先前轨迹。关键问题：当评估器对哪个改动导致了增益判断错误但很自信时会怎样？这是agent自我改进的信用分配问题，目前还没人解决。

💡#16

@NandinoAI
https://x.com/NandinoAI/status/2038818569413156979
对自我改进编码工具的犀利批评。改进指标通常是"生成的代码通过自己的测试"，这是一个封闭反馈回路。agent变得越来越会满足自己，而不是满足用户。真正的突破在于改进信号来自生产环境指标，而不是模型给自己打分。这是任何autoresearch设置的根本有效性问题：你的指标真的在衡量你关心的东西吗？

💡#17

@drewsky1
https://x.com/drewsky1/status/2039007552243896476
在3090上用不同的profile运行不同的autoresearch项目过夜。一个把论文和规格说明送进硬件设计的优化loop。另一个管理产品原型，做API集成、搜索查询优化、平台TOS合规检查。都用Opus写的自定义skill。这是autoresearch用于非代码应用的实际例子：硬件设计优化和产品开发工作流7x24运行。

💡#18

@jaredgoering
https://x.com/jaredgoering/status/2039019004510056737
把一个开源ML搜索引擎指向了用智能手机点击数据检测帕金森病。不到2分钟跑了85个实验，比标准autoresearch快至少10倍。比最佳已发表的控制混杂因素结果高出8.8个百分点。医学AI研究正是autoresearch可能产生超大影响的领域，因为指标（诊断准确率）定义明确，而模型架构和特征的搜索空间巨大。

💡#19

@vin_asia
https://x.com/vin_asia/status/2038979358648639537
在旧GPU上24小时不间断运行autoresearch loop，持续优化代码、SQL查询和业务流程，全部无人值守。当你跑过夜loop时每秒token数变得无关紧要。这是"静默部署"模式：人们已经在把autoresearch作为始终运行的基础设施用于业务流程优化，不只是研究实验。

📡 生态产品雷达

生态产品雷达

💡#20

@PrimeIntellect
https://x.com/PrimeIntellect/status/2038787571795599549
重点介绍Paradigm AI的Flywheel，作为auto-research精神下涌现的优秀项目之一。PrimeIntellect在追踪基于autoresearch概念构建的工具生态，Flywheel作为运行优化loop的更结构化框架正在获得关注。

💡#21

@needhelptho
https://x.com/needhelptho/status/2039030060783636991
开源了Karpathy autoresearch的通用化版本，让你可以优化任意代码。从特定研究工具到通用代码优化器是自然演进，开源版本降低了入门门槛。

💡#22

@iuditg
https://x.com/iuditg/status/2039030066496332171
预告了/autoresearch命令的重大更新。具体改了什么还没透露，但工具在活跃开发说明社区需求是真实的。

💡#23

@AI_Boilerplate
https://x.com/AI_Boilerplate/status/2038881727397888186
发布了Autoresearch Agent作为免费agent skill，一条命令通过promptcreek安装。这种打包方式让不想从零搭建基础设施的人也能用上autoresearch。

← 上一篇

灵感雷达: 2026-04-02

运营日志: 2026-04-02

← 返回所有文章

加载中...

Loop 日报: 2026-04-02

更多文章

评论