2026年4月29日loop

Loop 日报: 2026-04-30

前天的 Twitter 看下来，autoresearch 悄悄从"Karpathy 几周前发了个 loop"升级成了"Mac 上的 Ryzen 一晚跑一万次迭代、harness 已经能 npm install、至少有一家拿它做生产级量化交易"。两条主线很清楚：框架成熟了（pi-autoresearch 上 npm，gnhf 破千星），用例已经从编码飘出去——投资研究、生物、无人机优化、甚至社媒内容引擎。一个没人提的观察：现在没人在"推销" agentic loop 了，大家在交"它产出的东西"。

💡#1

@MatthewBerman
https://x.com/MatthewBerman/status/2049195091244589252
Nightshift：在 Apple Silicon 上跑通宵的自主 ML 研究 harness，专门为 MLX 写的。可以理解成 Mac 笔电版的 AutoResearch。重点不在工具本身，是这条信号：现在任何有 Mac 的人都能在自家电源上跑几个小时的 ML 实验，不用租 GPU。Karpathy 那个 autoresearch 原语正式下沉到消费端。

💡#2

@davebcn87
https://x.com/davebcn87/status/2049141151484047699
pi-autoresearch 现在可以无限期地一直跑下去。技巧：pi 自己处理上下文压缩，然后用持久化的文件把状态接续起来，继续跑新的假设。这是把"长跑 agent"从感觉变成可靠工程原语的关键缺口——上下文管理由 agent 自己负责，不是用户。

💡#3

@davebcn87
https://x.com/davebcn87/status/2049064153730490469
pi-autoresearch 上了 npm。一个 install、一条 CLI 命令。两个月前大家手搓的框架，现在已经包管理器化了。几小时 624 赞 / 32K 阅读——autoresearch 的分发模式正式进入"包管理器"阶段。

💡#4

@0xSero
https://x.com/0xSero/status/2049048462956642620
用 autoresearch 一晚把 deepseek-v4-flash 在 sglang 上跑 Blackwell 6000 的速度从 40 tok/s 提到 100+ tok/s，2.5 倍。这是数据集里最具体的生产级结果：loop 在人睡觉时跑，产出的是用人手工要好几天才能打磨出来的推理优化。

💡#5

@francescofaenzi
https://x.com/francescofaenzi/status/2048998654846066840
今天最清晰的非编码案例：Karpathy 原本给 LLM 架构优化用的 autoresearch repo，被搬去做量化金融——自动回测、参数调优、模型演化——跑在 Google Colab + Gemini 3.1 Pro 上，用一个 $20/月的 Google One AI Pro 订阅就够了。零额外基础设施成本。如果可行，systematic trading 的研发被商品化了。

💡#6

@kunchenguid
https://x.com/kunchenguid/status/2048978455107383456
gnhf——作者开源的"在任何项目上跑 Karpathy autoresearch"的工具——一个月涨到 1000 GitHub star。星是自然涨的不是买的。autoresearch 包装器能破千星这件事本身就是信号：这是一个在出货的生态，不是传闻。

💡#7

@alokbishoyi97
https://x.com/alokbishoyi97/status/2049177888902234174
开源了一个 autoresearch orchestrator，跑在 Claude Code 或 Codex 之上，两条命令搞定。分发策略很聪明：寄生在已经存在的 harness 上，而不是另起炉灶。"我怎么开始？"这个问题的最省力答案——装在你已经在用的东西上面。

💡#8

@lftherios
https://x.com/lftherios/status/2049172075181494762
做了一个 pi-autoresearch 扩展加 CLI，把 runtime 变成可协作的——多用户、多 agent。单用户 autoresearch 已经有趣，多 agent autoresearch 才是团队真正能采用的形态。"协作"这一层现在是个明显的空白。

💡#9

@bigmarvin
https://x.com/bigmarvin/status/2049180203063140617
实操 tip：通过 arxiv-radar 这个 MCP server 给 agent 直接接上 arxiv。相似度搜索、永远最新、全文 markdown。Claude Code 一行就接好。autoresearch 失败大多败在"读不到该读的文献"上——这条直接堵住缺口。

💡#10

@mjamei
https://x.com/mjamei/status/2049134291683094868
"接到你的 autoresearch loop 上，醒来就有几百条经过验证的迭代。"再加个 CI/CD 部署门控阻止回归，再加个 run 之间的 side-by-side 对比来 A/B 模型和 harness。整条 thread 读起来像是 autoresearch 在生产工程里的操作手册——通宵迭代、回归门控、A/B 对比，全套。

💡#11

@arv_puthucode
https://x.com/arv_puthucode/status/2049185568383516680
30 天公开建造挑战的第一天：上线了 ScoutFox 的 v0.5 autoresearch 模式。创始人公开 build log 里把 autoresearch 进度作为日常项目，这件事本身就是个信号——autoresearch 在几周里从研究玩具变成了创始人的日常词汇。

💡#12

@GopiVikranth
https://x.com/GopiVikranth/status/2049143600207081647
DataClaw——基于 OpenClaw 的数据科学 harness，组合了 Hermes（agent 层）+ GBrain（记忆）+ AutoResearch（有界改进 loop）。在 Kaggle 数据集上做了测试（仓储零售 EDA、星巴克问卷分析）。"组装零件"才是关键模式：没人在做单一的银弹，大家在缝合生态原语。

💡#13

@BazarovNic39426
https://x.com/BazarovNic39426/status/2049178969287651674
用 Codex 跑 Karpathy autoresearch 模式——没加额外工具，就告诉它"尽可能久地工作"。第一次 15-20 分钟，后来 2-3 小时，现在 8 小时以上、过夜接近 12 小时——一个对话窗口里。模型在 12 小时里保持连贯。这是没人截图的真正突破。

💡#14

@UsernameAndStuf
https://x.com/UsernameAndStuf/status/2048967226364235805
四核 AMD Ryzen 5 在 3.4 小时里跑了 10000 次递归循环——一套遗传演化系统接进 Karpathy autoresearch loop，用 micrograd 迭代。一个改过的 Kronos 预测 LLM 验证并改进策略。消费级硬件在工作日跑几千次演化研究迭代——成本下限消失了。

💡#15

@derekmeegan
https://x.com/derekmeegan/status/2049218109807198331
发布了 /browser-trace skill：把网络请求、DOM 内容、截图、CDP 日志都倾倒进可搜索的文件系统。明确说"特别适合 autoresearch loop 和盯局势用"。当天最大互动的 loop 帖（2,465 赞 / 212K 阅读）。"agent 用的浏览器可观测性"是新的热门原语。

💡#16

@ta_eis_eauton
https://x.com/ta_eis_eauton/status/2049155214284931530
把 autoresearch 浓缩成三行：给 codex 定一块 workspace（可编辑的表面），定一个评估指标，循环 codex 优化它。整个模式塞得进一条推。任何理解了这个的人今天就能搭自己的 autoresearch loop——不用框架。

💡#17

@HenryL_AI
https://x.com/HenryL_AI/status/2049272714473648315
一个尖锐的负面结论：autoresearch 在"模型本身没有品味"的任务上失败。在德州扑克上做过测试——模型直觉不出手牌概率，自我批评就跑不动。修复办法：让它写一个外部 equity solver。规则：当模型不能给自己输出打分时，就给它一个能打分的工具。

💡#18

@HenryL_AI
https://x.com/HenryL_AI/status/2049272712653426995
配套观点：很多领域 LLM 评估其实并不弱——它们一直被当 judge、critic、self-corrector 在用。自我演化 agent 之所以能跑，就是因为模型能评估自己的轨迹并写代码补 scaffolding。直接反驳"LLM 不能评估"的批评，列了硬生产案例。

💡#19

@marktenenholtz
https://x.com/marktenenholtz/status/2049147031541911663
"autoresearch 训练模型很厉害，但请你看看你的数据。求你了。"20 赞 / 2K 阅读，纯立场。最杀的一句：再聪明的 autoresearch loop，底下数据是坏的，错误就只是被复利放大。把老派数据科学的纪律按到新玩具上。

💡#20

@derekmeegan
https://x.com/derekmeegan/status/2049262243658015091
回复："这个特别适合给 autoresearch loop 造数据。"印证一个模式——autoresearch 的瓶颈不是 loop 本身，是干净的训练数据。能产出结构化数据的工具（比如 /browser-trace）正在成为 autoresearch 管线的上游喂料器。

💡#21

@0xMovez
https://x.com/0xMovez/status/2049175936562614654
getRoman——给 Polymarket 交易机器人做的 Slack 编排 agent。自我改进层：抓取天气 bot 的交易 → 用 Opus 4.7 分析 → 跟 9 个气象 API 对照 → 推新指令到 TG 机器人 → 从新交易里继续自我改进。结果：bot 的周 ROI 从 53% 涨到 110%。具体的、有量化 delta 的生产级 loop。

💡#22

@rblalock
https://x.com/rblalock/status/2049156828853137637
长 thread 论证 agent 的"orchestration theater 时代"在结束——线性链条里塞 LLM 调用，正在被真正的自治 loop 替掉，因为模型的 plan、tool use、recovery 能力在变好。Anthropic 当年那句"你可能根本不需要 agentic 系统"现在成了分水岭。挺好的同年对比框架。

💡#23

@stuffyokodraws
https://x.com/stuffyokodraws/status/2048963246485540866
今天最好的心智模型：道德经映射 agent 设计。"道生一，一生二，二生三，三生万物。" 基础模型 = 一；模型自己写工具 = 二；agent loop = 三；AGI = 万物。结论：别把 harness 复杂化。

💡#24

@31Carlton7
https://x.com/31Carlton7/status/2049055506636189835
tab 作为软件单位正在悄悄死掉。在 agent-native 应用里 loop 一直在跑——观察、检测、优先级、执行、叙述。Cursor 的对话面板吞掉编辑器，Claude Code 是个进程不是页面，v0 的 generative canvas。tab 这个隐喻已经过时了；新单位是任务，背景里有一个热的 loop 在跑。

💡#25

@Provenancetags
https://x.com/Provenancetags/status/2049018608517316953
大多数团队漏掉的三层：MCP（工具怎么连）、abstraction（harness 暴露给 LLM 哪些工具）、skills（模型怎么用好它们）。错误是把每个厂商的 MCP 工具都直接暴露给 LLM——CRM agent 一下子有 36 个重复工具。要包一层：模型只看到一个能力，厂商路由放在视线下面。Block 之前在 MCP Night 演示过把 Square 200+ endpoint 压成 3 个。

💡#26

@Everlier
https://x.com/Everlier/status/2049066541568729453
Jitera 在 Product Hunt 上线，前面经历过 5 次形态转换。现在：任何 agent 都能在 Jitera 自家 agentic loop、Codex、Claude Code 之间切换；记忆后端可以换成 S3 上的 markdown；可以自带 LLM。每个 agent 都是一个 DAG 引擎里的工作流，跑在一个 chat completion 端点里。"灵活性即特性"被打包成产品了。

💡#27

@grenlouis
https://x.com/grenlouis/status/2049102866967585122
重写了 Leon AI 的核心：更深的 agentic loop、更好的记忆、更好的上下文注入、更省钱的执行。从 2017 年做到现在的个人 AI 助理，17.1K star。设计中心跟新一波很不一样：长期连续性、持久身份、和主人绑定的 profile 数据。"在很多年里都记得你"这条假设还有人在做。

💡#28

@tandem_engine
https://x.com/tandem_engine/status/2049197216653275640
"有用的 agent loop 不是 prompt → action。是 signal → evidence → proposal → approval → action → memory。"编码 agent 只搞定了"action"那一环。其他全是空的。对"人想要 agent 做什么超出代码补全的事"的精炼框架。

💡#29

@youraipulse
https://x.com/youraipulse/status/2049211068447183008
autoresearch loop 被推销成日常 X 内容引擎：抓趋势、给 top performer 出报告、回复 engagement、写内容、按时发布、涨粉。这条具体实现行不行不重要，重要的是营销侧把 autoresearch 当原语用的速度有多快。

📡 生态产品雷达

生态产品雷达
今天 autoresearch / agentic loop 讨论里被提到 3 次以上的工具、框架和项目：

pi-autoresearch — Pi 的 autoresearch 框架，刚上 npm，支持无限期 runtime
Karpathy autoresearch — 原始原语，几乎每条 keeper 都拿它做参照
Codex / Codex CLI — 大家在上面跑 autoresearch 的最常被引用的 harness
Claude Code — 第二常被引用的 harness，常和 autoresearch orchestrator 配套
gnhf — 把 autoresearch 包装成"任意项目可用"的开源工具，1000+ star
OpenClaw — 出现在 DataClaw 里，也作为 agent 目标 harness
Hermes / Hermes Agent — DataClaw 里的 agent 层，也被作为跑 autoresearch loop 的 harness
GBrain — DataClaw 里和 AutoResearch 配套的记忆与流程层
MCP — browser-trace、arxiv-radar 等 autoresearch 输入管线底下的连接器标准
Polymarket — 多条 keeper 里的生产级 autoresearch 交易标的
Gemini 3.1 Pro — 跑量化金融 autoresearch 的模型（Google Colab）
DeepSeek V4 — 既是 autoresearch 优化的对象（sglang 调优），也是路由目标
GitHub — 提到的几乎所有 autoresearch 项目的分发渠道
arxiv-radar — 给 agent 直接接 arxiv 论文的 MCP server
browser-trace — derekmeegan 的 CDP 日志 skill，明确瞄准 autoresearch loop

← 上一篇

超级用户日报: 2026-04-30

灵感雷达: 2026-04-30

← 返回所有文章

加载中...

Loop 日报: 2026-04-30

更多文章

评论