Loop 日报: 2026-04-04
自动研究社区终于有了第一个真正的基准测试。不再是感觉层面的争论,而是有实打实的对照实验和数据。与此同时,大家不断把这些循环指向新的领域——冷启动销售、预测市场、知识库维护、甚至跨前沿模型的分歧测试。到处都是同一个模式:设好可衡量的目标,让循环跑一晚上,早上醒来收获手动迭代一周才能达到的成果。
#1
@zhengyaojiang
https://x.com/zhengyaojiang/status/2039742050518634534
终于有人做了大家一直在争论的实验。在NanoChat上让Autoresearch和Optuna正面对决,各跑三次。Autoresearch收敛更快,每步改进成本更低,找到的方案在更长训练时间下泛化得更好。关键在于Autoresearch直接在代码空间搜索,而不是固定的参数网格。即使限制在Optuna的16个参数范围内,LLM的先验也能选出迁移性更好的值。
https://x.com/zhengyaojiang/status/2039742050518634534
终于有人做了大家一直在争论的实验。在NanoChat上让Autoresearch和Optuna正面对决,各跑三次。Autoresearch收敛更快,每步改进成本更低,找到的方案在更长训练时间下泛化得更好。关键在于Autoresearch直接在代码空间搜索,而不是固定的参数网格。即使限制在Optuna的16个参数范围内,LLM的先验也能选出迁移性更好的值。
#2
@gkisokay
https://x.com/gkisokay/status/2039634985834131505
为了解决自改进多智能体系统最大的吐槽点——输出不可控——造了一个「潜意识智能体」。灵感来自Karpathy的autoresearch,它是一个后台持续运行的LLM进程,全天候地语境化数据、连接想法、压力测试假设。只有经过验证的好想法才会被推送到主智能体做进一步审查。
https://x.com/gkisokay/status/2039634985834131505
为了解决自改进多智能体系统最大的吐槽点——输出不可控——造了一个「潜意识智能体」。灵感来自Karpathy的autoresearch,它是一个后台持续运行的LLM进程,全天候地语境化数据、连接想法、压力测试假设。只有经过验证的好想法才会被推送到主智能体做进一步审查。
#3
@yujia_bao
https://x.com/yujia_bao/status/2039742189887226222
指出了自动研究中一个被低估的瓶颈:编码智能体很难大规模运行LLM训练任务,一个小的基础设施失误就能引发连锁问题。加入了thinkymachines团队开发tinkerapi,专门为自动研究智能体提供可靠的计算基础设施。tinkerapi加Cookbook加Claude Code正在形成一个真正的自主ML实验生产流水线。
https://x.com/yujia_bao/status/2039742189887226222
指出了自动研究中一个被低估的瓶颈:编码智能体很难大规模运行LLM训练任务,一个小的基础设施失误就能引发连锁问题。加入了thinkymachines团队开发tinkerapi,专门为自动研究智能体提供可靠的计算基础设施。tinkerapi加Cookbook加Claude Code正在形成一个真正的自主ML实验生产流水线。
#4
@Zeras_24
https://x.com/Zeras_24/status/2039535272334114951
把autoresearch循环指向了一个出乎意料的方向:跨前沿模型的分歧测试。在OpenGradient上强制投放320多个涉及伦理和地缘政治的二元问题,收集了1277个TEE密封推理结果。发现一旦去掉模糊措辞,模型共识就崩塌了。这是autoresearch用于系统性探测模型行为,而不是优化。
https://x.com/Zeras_24/status/2039535272334114951
把autoresearch循环指向了一个出乎意料的方向:跨前沿模型的分歧测试。在OpenGradient上强制投放320多个涉及伦理和地缘政治的二元问题,收集了1277个TEE密封推理结果。发现一旦去掉模糊措辞,模型共识就崩塌了。这是autoresearch用于系统性探测模型行为,而不是优化。
#5
@cvssvrt
https://x.com/cvssvrt/status/2039688821810270422
把自动研究应用到冷启动外呼销售,一觉醒来发现自动抓了1万条新线索。智能体持续搜索新的线索来源和创意抓取方法。昨晚它找到了投资人活动并拉取了参会名单。容易衡量、容易改进,正是autoresearch在ML之外大放异彩的那种紧密反馈回路场景。
https://x.com/cvssvrt/status/2039688821810270422
把自动研究应用到冷启动外呼销售,一觉醒来发现自动抓了1万条新线索。智能体持续搜索新的线索来源和创意抓取方法。昨晚它找到了投资人活动并拉取了参会名单。容易衡量、容易改进,正是autoresearch在ML之外大放异彩的那种紧密反馈回路场景。
#6
@zectrillionaire
https://x.com/zectrillionaire/status/2039774228774547459
让Claude Code完全自主地摸索出了一套Polymarket交易策略。五个小时的自主迭代,账户从294美元涨到362美元。没有手动策略设计,没有人工干预。机器人通过autoresearch循环自己构建并优化策略。在有明确盈亏信号的问题上,只要让循环跑就能走得很远。
https://x.com/zectrillionaire/status/2039774228774547459
让Claude Code完全自主地摸索出了一套Polymarket交易策略。五个小时的自主迭代,账户从294美元涨到362美元。没有手动策略设计,没有人工干预。机器人通过autoresearch循环自己构建并优化策略。在有明确盈亏信号的问题上,只要让循环跑就能走得很远。
#7
@0xJsum
https://x.com/0xJsum/status/2039823221038682520
在Obsidian上运行自改进知识库正在成为autoresearch的隐藏杀手级应用。把长期运行的智能体指向任何基于markdown的平台,让它自主维护、关联和扩展领域知识。声称这是目前运行长期autoresearch智能体最简单的方式,能让智能体积累真正的领域专长,而不是每次从零开始。
https://x.com/0xJsum/status/2039823221038682520
在Obsidian上运行自改进知识库正在成为autoresearch的隐藏杀手级应用。把长期运行的智能体指向任何基于markdown的平台,让它自主维护、关联和扩展领域知识。声称这是目前运行长期autoresearch智能体最简单的方式,能让智能体积累真正的领域专长,而不是每次从零开始。
#8
@brendanh0gan
https://x.com/brendanh0gan/status/2039774609348640947
做了AlphaLab,与Karpathy的auto-research并行发展。核心区别:在碰GPU之前有一个真正的研究阶段,加上自适应和大规模并行实验与综合。说2025年12月这些模型发生了质变,智能体编码能力出现了相变,使得这种自主研究循环真正可行。
https://x.com/brendanh0gan/status/2039774609348640947
做了AlphaLab,与Karpathy的auto-research并行发展。核心区别:在碰GPU之前有一个真正的研究阶段,加上自适应和大规模并行实验与综合。说2025年12月这些模型发生了质变,智能体编码能力出现了相变,使得这种自主研究循环真正可行。
#9
@sharat_sc
https://x.com/sharat_sc/status/2039756265799258176
在波士顿meetup的演示后试用了OpenClaw。定位是自动研究管理,而非Karpathy式的自动研究。擅长发现相关工作和组织项目结构,补上了纯优化循环缺失的组织层。切入的是同一个问题的不同切面:不只是跑实验,而是知道该跑哪些实验。
https://x.com/sharat_sc/status/2039756265799258176
在波士顿meetup的演示后试用了OpenClaw。定位是自动研究管理,而非Karpathy式的自动研究。擅长发现相关工作和组织项目结构,补上了纯优化循环缺失的组织层。切入的是同一个问题的不同切面:不只是跑实验,而是知道该跑哪些实验。
#10
@MartinSzerment
https://x.com/MartinSzerment/status/2039624608710598811
上海AI实验室用一个60亿参数的模型GEMS在图像生成上击败了Nano Banana 2。诀窍是把模型包裹在一个会迭代、记忆和重新加载领域知识的智能体循环中。智能涌现自架构而非规模。又一个小模型加循环能以小搏大的案例。
https://x.com/MartinSzerment/status/2039624608710598811
上海AI实验室用一个60亿参数的模型GEMS在图像生成上击败了Nano Banana 2。诀窍是把模型包裹在一个会迭代、记忆和重新加载领域知识的智能体循环中。智能涌现自架构而非规模。又一个小模型加循环能以小搏大的案例。
#11
@azeem
https://x.com/azeem/status/2039829529120694489
把Karpathy的autoresearch改造用于代码之外的知识工作。科学是人类最可靠的知识生产方法,自主实验循环可以以接近零的边际成本运行。但难点不在自动化本身,而在衡量。如果你无法定义「好」的清晰信号,循环优化的就是噪声。
https://x.com/azeem/status/2039829529120694489
把Karpathy的autoresearch改造用于代码之外的知识工作。科学是人类最可靠的知识生产方法,自主实验循环可以以接近零的边际成本运行。但难点不在自动化本身,而在衡量。如果你无法定义「好」的清晰信号,循环优化的就是噪声。
#12
@jorcagra
https://x.com/jorcagra/status/2039601361612890344
Claude Code的/loop加--agent组合被低估了,因为它生成的是一个有独立系统提示词的专用守护进程,不是基础版Claude。缺失的一环是跨循环的持久记忆。现在每次触发都是冷启动。有了记忆,自我改进循环才能真正跨运行复利增长,让autoresearch成为原生能力而非变通方案。
https://x.com/jorcagra/status/2039601361612890344
Claude Code的/loop加--agent组合被低估了,因为它生成的是一个有独立系统提示词的专用守护进程,不是基础版Claude。缺失的一环是跨循环的持久记忆。现在每次触发都是冷启动。有了记忆,自我改进循环才能真正跨运行复利增长,让autoresearch成为原生能力而非变通方案。
#13
@chris_karani
https://x.com/chris_karani/status/2039685336796668032
发布了一个支持MCP和CLI的设备端记忆引擎,专为长时间编码会话打造。跑6小时以上的自动研究循环时特别有用,智能体可以跨工具调用持久化上下文,不会忘记已经尝试过什么。解决了限制通宵autoresearch运行的冷重启问题。
https://x.com/chris_karani/status/2039685336796668032
发布了一个支持MCP和CLI的设备端记忆引擎,专为长时间编码会话打造。跑6小时以上的自动研究循环时特别有用,智能体可以跨工具调用持久化上下文,不会忘记已经尝试过什么。解决了限制通宵autoresearch运行的冷重启问题。
📡 生态产品雷达
生态产品雷达
Claude Code——自动研究的主力运行时。作为执行引擎出现在交易机器人、销售抓取、研究循环和知识库智能体背后。它的智能体循环架构使得长时间自主运行成为可能。
Karpathy的Autoresearch——引发这波浪潮的框架。现在被分叉和改造用于非ML场景,包括销售、知识工作和模型分歧测试。与Optuna的基准对照实验赋予了它实证层面的合法性。
Optuna——autoresearch的传统贝叶斯优化基线对照。仍然是超参数调优的可靠工具,但正面对决实验显示autoresearch在样本效率和泛化能力上已经领先。
Claude Code——自动研究的主力运行时。作为执行引擎出现在交易机器人、销售抓取、研究循环和知识库智能体背后。它的智能体循环架构使得长时间自主运行成为可能。
Karpathy的Autoresearch——引发这波浪潮的框架。现在被分叉和改造用于非ML场景,包括销售、知识工作和模型分歧测试。与Optuna的基准对照实验赋予了它实证层面的合法性。
Optuna——autoresearch的传统贝叶斯优化基线对照。仍然是超参数调优的可靠工具,但正面对决实验显示autoresearch在样本效率和泛化能力上已经领先。
评论