2026年4月3日loop

Loop 日报: 2026-04-04

自动研究社区终于有了第一个真正的基准测试。不再是感觉层面的争论，而是有实打实的对照实验和数据。与此同时，大家不断把这些循环指向新的领域——冷启动销售、预测市场、知识库维护、甚至跨前沿模型的分歧测试。到处都是同一个模式：设好可衡量的目标，让循环跑一晚上，早上醒来收获手动迭代一周才能达到的成果。

💡#1

@zhengyaojiang
https://x.com/zhengyaojiang/status/2039742050518634534
终于有人做了大家一直在争论的实验。在NanoChat上让Autoresearch和Optuna正面对决，各跑三次。Autoresearch收敛更快，每步改进成本更低，找到的方案在更长训练时间下泛化得更好。关键在于Autoresearch直接在代码空间搜索，而不是固定的参数网格。即使限制在Optuna的16个参数范围内，LLM的先验也能选出迁移性更好的值。

💡#2

@gkisokay
https://x.com/gkisokay/status/2039634985834131505
为了解决自改进多智能体系统最大的吐槽点——输出不可控——造了一个「潜意识智能体」。灵感来自Karpathy的autoresearch，它是一个后台持续运行的LLM进程，全天候地语境化数据、连接想法、压力测试假设。只有经过验证的好想法才会被推送到主智能体做进一步审查。

💡#3

@yujia_bao
https://x.com/yujia_bao/status/2039742189887226222
指出了自动研究中一个被低估的瓶颈：编码智能体很难大规模运行LLM训练任务，一个小的基础设施失误就能引发连锁问题。加入了thinkymachines团队开发tinkerapi，专门为自动研究智能体提供可靠的计算基础设施。tinkerapi加Cookbook加Claude Code正在形成一个真正的自主ML实验生产流水线。

💡#4

@Zeras_24
https://x.com/Zeras_24/status/2039535272334114951
把autoresearch循环指向了一个出乎意料的方向：跨前沿模型的分歧测试。在OpenGradient上强制投放320多个涉及伦理和地缘政治的二元问题，收集了1277个TEE密封推理结果。发现一旦去掉模糊措辞，模型共识就崩塌了。这是autoresearch用于系统性探测模型行为，而不是优化。

💡#5

@cvssvrt
https://x.com/cvssvrt/status/2039688821810270422
把自动研究应用到冷启动外呼销售，一觉醒来发现自动抓了1万条新线索。智能体持续搜索新的线索来源和创意抓取方法。昨晚它找到了投资人活动并拉取了参会名单。容易衡量、容易改进，正是autoresearch在ML之外大放异彩的那种紧密反馈回路场景。

💡#6

@zectrillionaire
https://x.com/zectrillionaire/status/2039774228774547459
让Claude Code完全自主地摸索出了一套Polymarket交易策略。五个小时的自主迭代，账户从294美元涨到362美元。没有手动策略设计，没有人工干预。机器人通过autoresearch循环自己构建并优化策略。在有明确盈亏信号的问题上，只要让循环跑就能走得很远。

💡#7

@0xJsum
https://x.com/0xJsum/status/2039823221038682520
在Obsidian上运行自改进知识库正在成为autoresearch的隐藏杀手级应用。把长期运行的智能体指向任何基于markdown的平台，让它自主维护、关联和扩展领域知识。声称这是目前运行长期autoresearch智能体最简单的方式，能让智能体积累真正的领域专长，而不是每次从零开始。

💡#8

@brendanh0gan
https://x.com/brendanh0gan/status/2039774609348640947
做了AlphaLab，与Karpathy的auto-research并行发展。核心区别：在碰GPU之前有一个真正的研究阶段，加上自适应和大规模并行实验与综合。说2025年12月这些模型发生了质变，智能体编码能力出现了相变，使得这种自主研究循环真正可行。

💡#9

@sharat_sc
https://x.com/sharat_sc/status/2039756265799258176
在波士顿meetup的演示后试用了OpenClaw。定位是自动研究管理，而非Karpathy式的自动研究。擅长发现相关工作和组织项目结构，补上了纯优化循环缺失的组织层。切入的是同一个问题的不同切面：不只是跑实验，而是知道该跑哪些实验。

💡#10

@MartinSzerment
https://x.com/MartinSzerment/status/2039624608710598811
上海AI实验室用一个60亿参数的模型GEMS在图像生成上击败了Nano Banana 2。诀窍是把模型包裹在一个会迭代、记忆和重新加载领域知识的智能体循环中。智能涌现自架构而非规模。又一个小模型加循环能以小搏大的案例。

💡#11

@azeem
https://x.com/azeem/status/2039829529120694489
把Karpathy的autoresearch改造用于代码之外的知识工作。科学是人类最可靠的知识生产方法，自主实验循环可以以接近零的边际成本运行。但难点不在自动化本身，而在衡量。如果你无法定义「好」的清晰信号，循环优化的就是噪声。

💡#12

@jorcagra
https://x.com/jorcagra/status/2039601361612890344
Claude Code的/loop加--agent组合被低估了，因为它生成的是一个有独立系统提示词的专用守护进程，不是基础版Claude。缺失的一环是跨循环的持久记忆。现在每次触发都是冷启动。有了记忆，自我改进循环才能真正跨运行复利增长，让autoresearch成为原生能力而非变通方案。

💡#13

@chris_karani
https://x.com/chris_karani/status/2039685336796668032
发布了一个支持MCP和CLI的设备端记忆引擎，专为长时间编码会话打造。跑6小时以上的自动研究循环时特别有用，智能体可以跨工具调用持久化上下文，不会忘记已经尝试过什么。解决了限制通宵autoresearch运行的冷重启问题。

📡 生态产品雷达

生态产品雷达

Claude Code——自动研究的主力运行时。作为执行引擎出现在交易机器人、销售抓取、研究循环和知识库智能体背后。它的智能体循环架构使得长时间自主运行成为可能。

Karpathy的Autoresearch——引发这波浪潮的框架。现在被分叉和改造用于非ML场景，包括销售、知识工作和模型分歧测试。与Optuna的基准对照实验赋予了它实证层面的合法性。

Optuna——autoresearch的传统贝叶斯优化基线对照。仍然是超参数调优的可靠工具，但正面对决实验显示autoresearch在样本效率和泛化能力上已经领先。

← 上一篇

GitHub 每日之星 — 2026年04月04日

安全警报: 2026-04-04

← 返回所有文章

加载中...

Loop 日报: 2026-04-04

更多文章

评论