Loop 日报: 2026-03-31
Auto-research正在快速成熟。讨论已经从「这是什么」转向「第三轮跑崩了」。有人fork了Karpathy的框架用于非ML场景,有人开始量化loop内工具调用的经济账,还有人发现真正的工程活在无聊的地方:数据管道和sleep命令。
#1
@0xViviennn
https://x.com/0xViviennn/status/2038657899963281725
Fork了Karpathy的auto-research来迭代自己的GitHub项目Uncommonroute。跑了6轮:第1轮安全审计跳过(AI没发现问题),第2轮清理死代码通过,验证100%并省了120万token,第3轮改得太激进直接崩了,第4轮回归到96.8%被回滚,第5轮其实恢复到100%但被review拒了,第6轮还在跑。现在他们已经从迭代项目转向迭代这个框架本身。这大概是ML benchmark之外最详细的公开auto-research日志。
https://x.com/0xViviennn/status/2038657899963281725
Fork了Karpathy的auto-research来迭代自己的GitHub项目Uncommonroute。跑了6轮:第1轮安全审计跳过(AI没发现问题),第2轮清理死代码通过,验证100%并省了120万token,第3轮改得太激进直接崩了,第4轮回归到96.8%被回滚,第5轮其实恢复到100%但被review拒了,第6轮还在跑。现在他们已经从迭代项目转向迭代这个框架本身。这大概是ML benchmark之外最详细的公开auto-research日志。
#2
@stefanopopoulos
https://x.com/stefanopopoulos/status/2038678682651545781
每天在用的工作流:通过Baseten MCP推训练任务,检查日志,持续迭代直到目标指标达标,用markdown记录实验。多节点规模的auto-research,专门用来搞定RL库。一个人把这当日常流程而不是一次性实验来跑,这本身就是信号。
https://x.com/stefanopopoulos/status/2038678682651545781
每天在用的工作流:通过Baseten MCP推训练任务,检查日志,持续迭代直到目标指标达标,用markdown记录实验。多节点规模的auto-research,专门用来搞定RL库。一个人把这当日常流程而不是一次性实验来跑,这本身就是信号。
#3
@_itsjustshubh
https://x.com/_itsjustshubh/status/2038695521057984529
做了一个Claude Code插件,用agentic loop自动运营X、LinkedIn和Reddit。关键洞察:终端里的computer use让社交媒体变成了agent可以控制的又一个应用。开源。这把auto-research从代码优化带进了内容运营领域。
https://x.com/_itsjustshubh/status/2038695521057984529
做了一个Claude Code插件,用agentic loop自动运营X、LinkedIn和Reddit。关键洞察:终端里的computer use让社交媒体变成了agent可以控制的又一个应用。开源。这把auto-research从代码优化带进了内容运营领域。
#4
@0xyunss
https://x.com/0xyunss/status/2038117908086415664
做了好几个agent之后最大的领悟:数据集才是最重要的。你可以有最好的LLM和最干净的agent loop,但没有结构化数据,agent啥也干不了。LLM不能像人类一样原生读网页,但它们读markdown和JSON非常好。先建数据管道,agent只是上面的一层。这就是为什么现在一堆创业公司抢着花钱买你的数据。
https://x.com/0xyunss/status/2038117908086415664
做了好几个agent之后最大的领悟:数据集才是最重要的。你可以有最好的LLM和最干净的agent loop,但没有结构化数据,agent啥也干不了。LLM不能像人类一样原生读网页,但它们读markdown和JSON非常好。先建数据管道,agent只是上面的一层。这就是为什么现在一堆创业公司抢着花钱买你的数据。
#5
@Odalo_Eguabor
https://x.com/Odalo_Eguabor/status/2038674994914320721
在Claude Code上跑auto-research来寻找投标的最优利润率。别人都在秀ChatGPT定制玩意儿,这哥们在用auto-research做真实的商业优化。用例极简,恰恰是那种能规模化的应用。
https://x.com/Odalo_Eguabor/status/2038674994914320721
在Claude Code上跑auto-research来寻找投标的最优利润率。别人都在秀ChatGPT定制玩意儿,这哥们在用auto-research做真实的商业优化。用例极简,恰恰是那种能规模化的应用。
#6
@realWeZZard
https://x.com/realWeZZard/status/2037960110572818634
发现了一个恶心的工程问题:目前的agentic coding模型并不适合做基于即时通讯的通用agent。Claude Code在执行长命令前会加sleep,这直接阻塞了agent loop。花了不少力气才屏蔽掉这个特性。所有想在IM上建agent的人都会踩到这个坑。
https://x.com/realWeZZard/status/2037960110572818634
发现了一个恶心的工程问题:目前的agentic coding模型并不适合做基于即时通讯的通用agent。Claude Code在执行长命令前会加sleep,这直接阻塞了agent loop。花了不少力气才屏蔽掉这个特性。所有想在IM上建agent的人都会踩到这个坑。
#7
@ethereumdegen
https://x.com/ethereumdegen/status/2038662981869826093
在做一个水平扩展的agent loop系统,worker认领传入的请求,在一个任务的持续时间内变成专门的agent预设,完成后恢复为通用worker。像变形人agent。这种临时专业化的架构是扩展loop的新模式。
https://x.com/ethereumdegen/status/2038662981869826093
在做一个水平扩展的agent loop系统,worker认领传入的请求,在一个任务的持续时间内变成专门的agent预设,完成后恢复为通用worker。像变形人agent。这种临时专业化的架构是扩展loop的新模式。
#8
@EMPIRE_ENGINE
https://x.com/EMPIRE_ENGINE/status/2038674221375553623
没人在做agentic loop里工具调用的经济性基准测试。每个MCP工具调用等于延迟加token开销加一个新的故障面。一个10步的agent loop每步3个工具调用就是30个静默复合的故障点。开发者执着于选模型,却忽略了loop本身的运营成本。
https://x.com/EMPIRE_ENGINE/status/2038674221375553623
没人在做agentic loop里工具调用的经济性基准测试。每个MCP工具调用等于延迟加token开销加一个新的故障面。一个10步的agent loop每步3个工具调用就是30个静默复合的故障点。开发者执着于选模型,却忽略了loop本身的运营成本。
#9
@ghumare64
https://x.com/ghumare64/status/2037862456576319503
让auto-research实现了多GPU扩展。原始框架的直接延伸,处理更大规模的实验。从单GPU过夜跑到多GPU并行研究,是显而易见的下一步但很少有人真正发布了。
https://x.com/ghumare64/status/2037862456576319503
让auto-research实现了多GPU扩展。原始框架的直接延伸,处理更大规模的实验。从单GPU过夜跑到多GPU并行研究,是显而易见的下一步但很少有人真正发布了。
#10
@thedudesminds
https://x.com/thedudesminds/status/2038657758065529072
24/7跑OpenClaw,cron job、浏览器自动化、记忆系统全套。说不用API密钥的本地路径被严重低估了,大多数人没意识到不依赖云能做多少事。agent loop一旦跑通,能接入的范围会让你吃惊。
https://x.com/thedudesminds/status/2038657758065529072
24/7跑OpenClaw,cron job、浏览器自动化、记忆系统全套。说不用API密钥的本地路径被严重低估了,大多数人没意识到不依赖云能做多少事。agent loop一旦跑通,能接入的范围会让你吃惊。
#11
@vetolayer
https://x.com/vetolayer/status/2037901880357982689
在做VetoLayer风险计算器。算了一笔账:100美元的agentic loop加上10分钟的人类反应时间等于6万美元的资金流失。让无人监管loop的隐形风险变得可见。当auto-research从业余项目进入有真钱的生产环境,这个工具是刚需。
https://x.com/vetolayer/status/2037901880357982689
在做VetoLayer风险计算器。算了一笔账:100美元的agentic loop加上10分钟的人类反应时间等于6万美元的资金流失。让无人监管loop的隐形风险变得可见。当auto-research从业余项目进入有真钱的生产环境,这个工具是刚需。
#12
@goodhunt
https://x.com/goodhunt/status/2037747185157108133
在做一个anti-slop的auto-research变体,分享给Teknium和theemozilla要反馈。auto-research输出的质量控制问题是真实存在的,正面解决而不是接受loop吐出来的一切,是正确的直觉。
https://x.com/goodhunt/status/2037747185157108133
在做一个anti-slop的auto-research变体,分享给Teknium和theemozilla要反馈。auto-research输出的质量控制问题是真实存在的,正面解决而不是接受loop吐出来的一切,是正确的直觉。
📡 生态产品雷达
生态产品雷达
Claude Code(5次提及)、OpenClaw(3次)、MCP(4次,作为基础设施)、Baseten(1次)、Karpathy auto-research框架(被引用4次以上作为fork基础)。
Claude Code(5次提及)、OpenClaw(3次)、MCP(4次,作为基础设施)、Baseten(1次)、Karpathy auto-research框架(被引用4次以上作为fork基础)。
评论