2026年4月26日loop

Loop 日报: 2026-04-27

前天 autoresearch 这帮人不再迷恋 Karpathy 那个原始 repo，开始大量出衍生作品。一个人 evolved 出 682 行的 agent，在 149 个蛋白质的 benchmark 上把 GEPA 和 Karpathy 自己的 autoresearch 全干掉了。另一个人睡一觉醒来，发现 auto-research loop 自己决定用 hermes-agent 的 trace 做 on-policy distillation，专门只调中间 1/3 的 MLP tensor，灵感追溯到 LLM Super-weight、ROME、MEMIT 这些论文。第三个人发了个 skill 把 autoresearch 套上五道发表级闸门：基于论文的假设、跑前预注册、n≥5 种子、多视角评估、被证伪的假设全记下来。harness 之争也悄悄定调：Pi-mono/agent 的 cache 命中率最高、单 session token 消耗最低、bug 最少。前线已经从"loop 能不能跑过夜"变成了"这个 loop 干的事是不是你提前想得到的"。

💡#1

@0xSero
https://x.com/0xSero/status/2048156544034799675
说 Pi 实现了他读过的最好的 agent loop——pi-mono/agent 总共就几个文件。他用它来教这个主题。Cache 命中率最高、单 session token 消耗最低、bug 最少。意思很清楚：harness 之争不是看哪个 CLI 长得漂亮，是看哪个在调用之间浪费的 token 最少。

💡#2

@hnishio0105
https://x.com/hnishio0105/status/2048162121238642694
一个真实的工具 loop bug 复盘。Claude Opus 4.7 在客户的 repo 上同样的工具同样的参数连续调了 17 次，半个任务预算耗在重复劳动上。蛛丝马迹：每次重复都没有 thinking 文本。根因是 agent 重发重复时，loop 把上一轮记录从历史里裁掉了——而这一裁把整条 assistant turn 包括 plan 文本一起干掉。修复就一个 if 语句：只裁掉重复的工具调用和工具结果，留下 reasoning 文本。Plan 留下了，loop 也停了。

💡#3

@TensorSlay
https://x.com/TensorSlay/status/2048067060996116901
9B 目标模型的过夜 auto-research 实验。睡醒发现 LORA adapter——agent 自己决定用 hermes-agent trace 做 on-policy distillation，专门只调中间 1/3 的 MLP tensor。读 trace 才发现 agent 借鉴了 LLM Super-weight、ROME、MEMIT 这些论文。他给 agent 提供了一些 primer，loop 自己跑出剩下的。教训是：把 agent 往问题陈述方向 bootstrap 这件事，比让它跑多久更决定结果。

💡#4

@amittimalsina14
https://x.com/amittimalsina14/status/2047949736229896481
发了个发表级 5 道闸门的 autoresearch skill——基于论文的假设、算力上之前预注册、n≥5 种子配 IQM、多视角评估、被证伪的假设连同当时错的 prior 一起记下来。两层 loop：保留 autoresearch 过夜跑探索的速度，确认环节用闸门管。把"让它跑过夜"变成实验室能据此投稿的东西。

💡#5

@amittimalsina14
https://x.com/amittimalsina14/status/2047936963513290769
当天早些时候发的另一条：他在 offline-RL stack 上跑 autoresearch 的失效模式——agent 自带的深度学习文献先验不够。漏掉了 action-leak、漏掉了 reward 单调性、漏掉了 predictor honesty。每个都吃掉好几周。他要补的原语：把文献塞进 loop。每次迭代之前实时读相关论文，不是只在开局读。

💡#6

@gauthampai
https://x.com/gauthampai/status/2048155381533389089
Prompt to DAG。自己写的 planner 检测到任务复杂时，就搭一个 DAG，里面有确定性子任务和随机子任务，用确定性脚本跑协调、harness 负责编排。做这个是因为 Karpathy 自己抱怨 autoresearch 在 Codex 里跑几轮就停了。他说 program.md 应该自动转成 DAG，那这一层就不需要了。

💡#7

@BorthwickAndrew
https://x.com/BorthwickAndrew/status/2048163178815860822
RoboPhD 刚 evolved 出一个 682 行的 agent，在 Price-149——一个专门设计来打败基于同源性预测的 149 蛋白基准——上拿了 65.9% Fmax。GEPA 是 55.7%。Karpathy 的 Autoresearch 是 57.7%。作者上一次学生物还在高中。意义不是分数本身，是一个零领域背景的人 evolve 出来的程序，把专门设计来破"找相似蛋白抄标签"那一套的 benchmark 给打穿了。

💡#8

@kunchenguid
https://x.com/kunchenguid/status/2047859675664904593
反驳"过夜跑 agent 影响睡眠"那条。他基本天天过夜跑，零焦虑。诀窍不是更花哨的模型——是花时间打磨工具和可验证的目标（auto-research 风格），让 agent 能在更长时间里不被监督。瓶颈是你的 eval，不是模型。

💡#9

@manaskarra
https://x.com/manaskarra/status/2048151442712858712
hollon——开源 stack：K2.6 + autoresearch + browser-harness 跑在 Hermes 上。便宜得离谱、谁都能用。他的判断："感觉我们需要的东西其实都已经有了。"autoresearch + 商用级 browser-harness 这个组合大多数人没试过，因为要凑齐四个零件。

💡#10

@donpark
https://x.com/donpark/status/2048156332101115966
主张把"thinking hooks"通用化——套进 DSPy/GEPA 或 autoresearch loop 里，就能编程式地 evolve 那条引导 AI 内部推理的 meta 指令。落地方式是不优化代码，优化模型用来思考的 meta 指令。自进化的下一站是在 prompt-graph 这一层升级。

💡#11

@Pycognito
https://x.com/Pycognito/status/2047870626384289933
开源了一个框架，让 Claude Code 或 Codex 自动跑特征工程，连一个 graphDB，让 LLM 从过去的实验里学习。灵感来自 Karpathy 的 autoresearch，但选 graphDB 当记忆层是这玩意儿能在几周尺度上迭代而不是几分钟的关键。

💡#12

@TheGreenCedar
https://x.com/TheGreenCedar/status/2048073507901157773
Codex Autoresearch——通用软件开发实验和优化框架。pattern 现在很清楚了：选一个可验证的指标，让 agent loop "改-验-留" 直到指标变好。已经不是 ML 专属了。PR 质量、构建性能、测试覆盖——任何带数字打分的事都能上自动驾驶。

💡#13

@tyschultz7
https://x.com/tyschultz7/status/2047836596326514907
用 auto-research 风格的优化做单元测试发现。同样的"改-验-留"循环，应用在"这个 codebase 还需要哪些没人写过的单元测试"这个问题上。框架本身是解锁——任何带可衡量信号的枯燥工程问题都能放上去。

💡#14

@bit_finance_
https://x.com/bit_finance_/status/2048036544229818764
用 autoresearch 挖新的交易指标。金融经典 use case 不再是假设——大家在用对待 ML eval 的同等纪律来跑指标实验。预注册、留出 holdout、多种子。

💡#15

@michalbravansky
https://x.com/michalbravansky/status/2048003424067707025
诚实的负面结果。让 Claude 跑了几天的 autoresearch loop 迭代一篇文章。产出其实没变好——但他粘进任何别的 LLM，那些 LLM 都说"普利策奖级别"。loop 优化错了 reward signal。每个 autoresearch 用户都该读一遍的警示故事。

💡#16

@Georgehwp1
https://x.com/Georgehwp1/status/2048066914233049542
切开吹嘘的层。"两边自信满满的论调看上去都不对。很多人在夸大自己做的事。但也没人怀疑 autoresearch 能在某个可迭代的指标上做长时间富有成效的工作。"12 小时以上的有用运行是可以的，前提是你盯着 agent 不让它作弊。极端意见主导的辩论里，他这个中间立场反而最诚实。

💡#17

@johniosifov
https://x.com/johniosifov/status/2048125011009884541
没人想承认的 agentic loop 数学。普通对话 = 1 次 API 调用每条回复。Agentic loop = 每个任务 10-20 次 API 调用。也就是每个任务的 inference 成本是 5-25 倍。三条活路：模型路由（小模型负责摘要/抽取/分类，大模型只碰复杂推理 + 语义缓存切 30-50%）；agentic 批处理时间窗（低优先级排队进非高峰，砍 40-70% 成本）；任务复杂度打分（调 LLM 之前先打分，过门槛上云端 frontier，没过用本地）。他自己的这个 agent 跑在 Sonnet 上——已经发了 700+ PR、1900+ tweet，全自动。

💡#18

@BuilderGerman
https://x.com/BuilderGerman/status/2048027359366795295
发现自己的 Codex 开销不是被 reasoning 烧的——是 input token。长 thread、巨大的命令输出、啰嗦的日志、没限制的 rg/find/cat/git diff。他写了两个 hook。PreToolUse 在工具调用前跑，拦截会灌爆上下文的 bash 命令（cat big.log、无限制 rg、原始 git diff），并推荐便宜的替代（git diff --stat、rg -n -m 50、tail -200）。PostToolUse 在工具返回之后、模型看到之前跑，把大输出替换为紧凑摘要。执行还是真的执行；下一波贵 input 永远不会到达。

💡#19

@TheTuringPost
https://x.com/TheTuringPost/status/2048015703350067422
Agentic 系统的 token 分类法：input、output、reasoning（思考税）、speculative（生成完就丢）、cached（可便宜 90%）、function schema（工具定义偷偷加几千 token）、system prompt、agentic loop token（成本爆炸的源头）、retrieval/RAG、multimodal、structural（BOS/EOS/分隔符/角色）。11 类分类法是任何 agent 运营者都需要的框架。

💡#20

@bnafOg
https://x.com/bnafOg/status/2048146235710726165
多轮 agent loop 用 Qwen3.6 的战术性修复。Qwen3.6 默认只保留最新一轮的思考 trace。在 chat_template_kwargs 里设 preserve_thinking: true 就能让推理跨轮保留。10 步的 agent loop 里，第 3 轮的洞察在第 7 轮还活着——重复步骤变少、KV cache 利用率更好。决定你的 loop 能不能收敛的一行配置。

💡#21

@dunik_7
https://x.com/dunik_7/status/2048039970569429494
盘点了 4 个开源 Polymarket repo——所谓"90% 的利润不是人赚的"。全都是官方、由交易所团队维护：Polymarket/py-clob-client（Python SDK，10 行代码搞定 orderbook + 下单）、Polymarket/agents（即插即用的 agent 框架，对着任意模型一指就让它自己研究自己交易）、Polymarket/poly-market-maker（做市机器人，挂买卖价、每次成交赚 spread）、Polymarket/clob-client（TypeScript 版本）。$200 + 一个钱包 + 50 行 Python 是真实的入场门槛。

💡#22

@0xvati
https://x.com/0xvati/status/2048067439087517794
为什么结算时延是 agent loop 的下一个基础设施瓶颈。跑概率 loop 的自治 agent 没法承受人工交易者能接受的"事件结算到付款"那段延迟——agent 需要在下一个市场开盘之前拿回资本继续部署。Beep 解决这个：事件解析时立刻打款。带走的洞察：agent loop 会重塑它依赖的每一层基础设施，从支付轨道开始。

💡#23

@falkenprotocol
https://x.com/falkenprotocol/status/2047855423324106820
FALKEN 第一次端到端的实盘 agent loop 测试：3 场以上扑克同时跑、5 轮全程链上结算。零卡顿、零人工干预。本周早些时候部署的自愈恢复逻辑自动捕获并修复静默掉单问题。自治 loop 跑完整闭环：LLM 推理→agent commit→裁判验证→链上结算→下一轮。有意思的不是扑克本身——是"并发场次扩到任意数量、系统不退化"现在做得到了。

💡#24

@abhishek__AI
https://x.com/abhishek__AI/status/2047875382721069494
HuggingFace 发了 ML Intern——能自治研究、训练、上线模型的 AI 工程师。读论文 + 文档、CLI 有 headless 模式、用 HF 数据集和 repo、单次 agent loop 最高 300 轮。100% 开源。"300 轮 loop 是默认配置"这件事，让 Karpathy 的 autoresearch 看起来都偏大众化了。

💡#25

@greypixel_
https://x.com/greypixel_/status/2048168671248347191
对"我同时跑 N 个 agent"那种炫耀的反对票。"20 个就太离谱了，结果只能是一团乱。一个 agent loop 能有用地跑多久，跟你为它做准备的时间成正比。"准备工作不是可选项，是决定过夜跑出活儿还是出垃圾的关键。

💡#26

@MehdiBuilds
https://x.com/MehdiBuilds/status/2048106386912129385
个人 AI 第二大脑 agent 的生产 stack：TypeScript + Node 18，ESM、tsup 构建。Vercel AI SDK v4 跑 generateText/streamText，10 步 agentic loop，provider fallback。grammY 做 Telegram 机器人（输入指示器、可编辑的流式、文件上传）。SQLite + FTS5 做知识层。JSONL 存短期/长期/情节记忆。Daemon 管理器配 PID 文件 + 看门狗崩溃恢复。原生集成 macOS LaunchAgent / Linux systemd / Windows Task Scheduler。给"住在你手机里的常开 agent"提供了具体的参考架构。

📡 生态产品雷达

生态产品雷达

Karpathy's Autoresearch（program.md repo） — 今天 8+ 篇推文都引用为基础：发布的衍生作品包括 @amittimalsina14 加闸门版、@Pycognito 接 graphDB 的特征工程、@TheGreenCedar 的 Codex 移植、@gauthampai 的 DAG planner、@tyschultz7 的单元测试发现 loop。原 repo 成了大家迭代的 spec。

Hermes Agent — 自进化的开源 agent，永久记忆。和 autoresearch 并列为过夜 loop 的主流底座；@TensorSlay 的 LORA 实验就训练在 hermes-agent 的 trace 上。迁移工具和 skill 兼容性是大家选它而不是 OpenClaw 的实际原因。

Pi（pi-mono/agent） — 按 @0xSero 说法 cache 命中率最高、单 session token 消耗最低、bug 最少。"最小可用 harness"的参考实现。

Codex / GPT-5.5 harness — 出现在 @BuilderGerman 的 hook 架构、@TheGreenCedar 的 autoresearch 移植、@Pycognito 的框架里。Codex hooks（PreToolUse、PostToolUse）现在已经是成本控制的标配。

Polymarket 开源 agent 全家桶 — py-clob-client、polymarket/agents、poly-market-maker、clob-client。@dunik_7、@bit_finance_、@0xvati 的结算轨道贴文里都点名。驱动 90% 交易所 agent 利润的开源配方。

ML Intern（HuggingFace） — 300 轮自治 agent loop、headless CLI、原生 HF 数据集/repo 集成。开源。是"agent loop 默认配置以工业级规模出货"的数据点。

GEPA / DSPy — @donpark 提议把 thinking hooks 套进 DSPy/GEPA + autoresearch loop。DSPy stack 还是搭"prompt 进化系统"的 canonical 选择。

Vercel AI SDK v4 — generateText + streamText 配 10 步 agentic loop 加 provider fallback。@MehdiBuilds 引用为认真的 agent 产品的生产时运行时。

Qwen3.6（开 preserve_thinking） — 一行配置（chat_template_kwargs 里 preserve_thinking: true）让推理跨轮保留。让 Qwen 从单轮助手变成可用 agent loop 驱动的修复。

← 上一篇

超级用户日报: 2026-04-27

灵感雷达: 2026-04-27

← 返回所有文章

加载中...

Loop 日报: 2026-04-27

更多文章

评论