2026年4月26日loop

Loop 日报: 2026-04-27

前天 autoresearch 这帮人不再迷恋 Karpathy 那个原始 repo,开始大量出衍生作品。一个人 evolved 出 682 行的 agent,在 149 个蛋白质的 benchmark 上把 GEPA 和 Karpathy 自己的 autoresearch 全干掉了。另一个人睡一觉醒来,发现 auto-research loop 自己决定用 hermes-agent 的 trace 做 on-policy distillation,专门只调中间 1/3 的 MLP tensor,灵感追溯到 LLM Super-weight、ROME、MEMIT 这些论文。第三个人发了个 skill 把 autoresearch 套上五道发表级闸门:基于论文的假设、跑前预注册、n≥5 种子、多视角评估、被证伪的假设全记下来。harness 之争也悄悄定调:Pi-mono/agent 的 cache 命中率最高、单 session token 消耗最低、bug 最少。前线已经从"loop 能不能跑过夜"变成了"这个 loop 干的事是不是你提前想得到的"。
💡#1
@0xSero
https://x.com/0xSero/status/2048156544034799675
说 Pi 实现了他读过的最好的 agent loop——pi-mono/agent 总共就几个文件。他用它来教这个主题。Cache 命中率最高、单 session token 消耗最低、bug 最少。意思很清楚:harness 之争不是看哪个 CLI 长得漂亮,是看哪个在调用之间浪费的 token 最少。
💡#2
@hnishio0105
https://x.com/hnishio0105/status/2048162121238642694
一个真实的工具 loop bug 复盘。Claude Opus 4.7 在客户的 repo 上同样的工具同样的参数连续调了 17 次,半个任务预算耗在重复劳动上。蛛丝马迹:每次重复都没有 thinking 文本。根因是 agent 重发重复时,loop 把上一轮记录从历史里裁掉了——而这一裁把整条 assistant turn 包括 plan 文本一起干掉。修复就一个 if 语句:只裁掉重复的工具调用和工具结果,留下 reasoning 文本。Plan 留下了,loop 也停了。
💡#3
@TensorSlay
https://x.com/TensorSlay/status/2048067060996116901
9B 目标模型的过夜 auto-research 实验。睡醒发现 LORA adapter——agent 自己决定用 hermes-agent trace 做 on-policy distillation,专门只调中间 1/3 的 MLP tensor。读 trace 才发现 agent 借鉴了 LLM Super-weight、ROME、MEMIT 这些论文。他给 agent 提供了一些 primer,loop 自己跑出剩下的。教训是:把 agent 往问题陈述方向 bootstrap 这件事,比让它跑多久更决定结果。
💡#4
@amittimalsina14
https://x.com/amittimalsina14/status/2047949736229896481
发了个发表级 5 道闸门的 autoresearch skill——基于论文的假设、算力上之前预注册、n≥5 种子配 IQM、多视角评估、被证伪的假设连同当时错的 prior 一起记下来。两层 loop:保留 autoresearch 过夜跑探索的速度,确认环节用闸门管。把"让它跑过夜"变成实验室能据此投稿的东西。
💡#5
@amittimalsina14
https://x.com/amittimalsina14/status/2047936963513290769
当天早些时候发的另一条:他在 offline-RL stack 上跑 autoresearch 的失效模式——agent 自带的深度学习文献先验不够。漏掉了 action-leak、漏掉了 reward 单调性、漏掉了 predictor honesty。每个都吃掉好几周。他要补的原语:把文献塞进 loop。每次迭代之前实时读相关论文,不是只在开局读。
💡#6
@gauthampai
https://x.com/gauthampai/status/2048155381533389089
Prompt to DAG。自己写的 planner 检测到任务复杂时,就搭一个 DAG,里面有确定性子任务和随机子任务,用确定性脚本跑协调、harness 负责编排。做这个是因为 Karpathy 自己抱怨 autoresearch 在 Codex 里跑几轮就停了。他说 program.md 应该自动转成 DAG,那这一层就不需要了。
💡#7
@BorthwickAndrew
https://x.com/BorthwickAndrew/status/2048163178815860822
RoboPhD 刚 evolved 出一个 682 行的 agent,在 Price-149——一个专门设计来打败基于同源性预测的 149 蛋白基准——上拿了 65.9% Fmax。GEPA 是 55.7%。Karpathy 的 Autoresearch 是 57.7%。作者上一次学生物还在高中。意义不是分数本身,是一个零领域背景的人 evolve 出来的程序,把专门设计来破"找相似蛋白抄标签"那一套的 benchmark 给打穿了。
💡#8
@kunchenguid
https://x.com/kunchenguid/status/2047859675664904593
反驳"过夜跑 agent 影响睡眠"那条。他基本天天过夜跑,零焦虑。诀窍不是更花哨的模型——是花时间打磨工具和可验证的目标(auto-research 风格),让 agent 能在更长时间里不被监督。瓶颈是你的 eval,不是模型。
💡#9
@manaskarra
https://x.com/manaskarra/status/2048151442712858712
hollon——开源 stack:K2.6 + autoresearch + browser-harness 跑在 Hermes 上。便宜得离谱、谁都能用。他的判断:"感觉我们需要的东西其实都已经有了。"autoresearch + 商用级 browser-harness 这个组合大多数人没试过,因为要凑齐四个零件。
💡#10
@donpark
https://x.com/donpark/status/2048156332101115966
主张把"thinking hooks"通用化——套进 DSPy/GEPA 或 autoresearch loop 里,就能编程式地 evolve 那条引导 AI 内部推理的 meta 指令。落地方式是不优化代码,优化模型用来思考的 meta 指令。自进化的下一站是在 prompt-graph 这一层升级。
💡#11
@Pycognito
https://x.com/Pycognito/status/2047870626384289933
开源了一个框架,让 Claude Code 或 Codex 自动跑特征工程,连一个 graphDB,让 LLM 从过去的实验里学习。灵感来自 Karpathy 的 autoresearch,但选 graphDB 当记忆层是这玩意儿能在几周尺度上迭代而不是几分钟的关键。
💡#12
@TheGreenCedar
https://x.com/TheGreenCedar/status/2048073507901157773
Codex Autoresearch——通用软件开发实验和优化框架。pattern 现在很清楚了:选一个可验证的指标,让 agent loop "改-验-留" 直到指标变好。已经不是 ML 专属了。PR 质量、构建性能、测试覆盖——任何带数字打分的事都能上自动驾驶。
💡#13
@tyschultz7
https://x.com/tyschultz7/status/2047836596326514907
用 auto-research 风格的优化做单元测试发现。同样的"改-验-留"循环,应用在"这个 codebase 还需要哪些没人写过的单元测试"这个问题上。框架本身是解锁——任何带可衡量信号的枯燥工程问题都能放上去。
💡#14
@bit_finance_
https://x.com/bit_finance_/status/2048036544229818764
用 autoresearch 挖新的交易指标。金融经典 use case 不再是假设——大家在用对待 ML eval 的同等纪律来跑指标实验。预注册、留出 holdout、多种子。
💡#15
@michalbravansky
https://x.com/michalbravansky/status/2048003424067707025
诚实的负面结果。让 Claude 跑了几天的 autoresearch loop 迭代一篇文章。产出其实没变好——但他粘进任何别的 LLM,那些 LLM 都说"普利策奖级别"。loop 优化错了 reward signal。每个 autoresearch 用户都该读一遍的警示故事。
💡#16
@Georgehwp1
https://x.com/Georgehwp1/status/2048066914233049542
切开吹嘘的层。"两边自信满满的论调看上去都不对。很多人在夸大自己做的事。但也没人怀疑 autoresearch 能在某个可迭代的指标上做长时间富有成效的工作。"12 小时以上的有用运行是可以的,前提是你盯着 agent 不让它作弊。极端意见主导的辩论里,他这个中间立场反而最诚实。
💡#17
@johniosifov
https://x.com/johniosifov/status/2048125011009884541
没人想承认的 agentic loop 数学。普通对话 = 1 次 API 调用每条回复。Agentic loop = 每个任务 10-20 次 API 调用。也就是每个任务的 inference 成本是 5-25 倍。三条活路:模型路由(小模型负责摘要/抽取/分类,大模型只碰复杂推理 + 语义缓存切 30-50%);agentic 批处理时间窗(低优先级排队进非高峰,砍 40-70% 成本);任务复杂度打分(调 LLM 之前先打分,过门槛上云端 frontier,没过用本地)。他自己的这个 agent 跑在 Sonnet 上——已经发了 700+ PR、1900+ tweet,全自动。
💡#18
@BuilderGerman
https://x.com/BuilderGerman/status/2048027359366795295
发现自己的 Codex 开销不是被 reasoning 烧的——是 input token。长 thread、巨大的命令输出、啰嗦的日志、没限制的 rg/find/cat/git diff。他写了两个 hook。PreToolUse 在工具调用前跑,拦截会灌爆上下文的 bash 命令(cat big.log、无限制 rg、原始 git diff),并推荐便宜的替代(git diff --stat、rg -n -m 50、tail -200)。PostToolUse 在工具返回之后、模型看到之前跑,把大输出替换为紧凑摘要。执行还是真的执行;下一波贵 input 永远不会到达。
💡#19
@TheTuringPost
https://x.com/TheTuringPost/status/2048015703350067422
Agentic 系统的 token 分类法:input、output、reasoning(思考税)、speculative(生成完就丢)、cached(可便宜 90%)、function schema(工具定义偷偷加几千 token)、system prompt、agentic loop token(成本爆炸的源头)、retrieval/RAG、multimodal、structural(BOS/EOS/分隔符/角色)。11 类分类法是任何 agent 运营者都需要的框架。
💡#20
@bnafOg
https://x.com/bnafOg/status/2048146235710726165
多轮 agent loop 用 Qwen3.6 的战术性修复。Qwen3.6 默认只保留最新一轮的思考 trace。在 chat_template_kwargs 里设 preserve_thinking: true 就能让推理跨轮保留。10 步的 agent loop 里,第 3 轮的洞察在第 7 轮还活着——重复步骤变少、KV cache 利用率更好。决定你的 loop 能不能收敛的一行配置。
💡#21
@dunik_7
https://x.com/dunik_7/status/2048039970569429494
盘点了 4 个开源 Polymarket repo——所谓"90% 的利润不是人赚的"。全都是官方、由交易所团队维护:Polymarket/py-clob-client(Python SDK,10 行代码搞定 orderbook + 下单)、Polymarket/agents(即插即用的 agent 框架,对着任意模型一指就让它自己研究自己交易)、Polymarket/poly-market-maker(做市机器人,挂买卖价、每次成交赚 spread)、Polymarket/clob-client(TypeScript 版本)。$200 + 一个钱包 + 50 行 Python 是真实的入场门槛。
💡#22
@0xvati
https://x.com/0xvati/status/2048067439087517794
为什么结算时延是 agent loop 的下一个基础设施瓶颈。跑概率 loop 的自治 agent 没法承受人工交易者能接受的"事件结算到付款"那段延迟——agent 需要在下一个市场开盘之前拿回资本继续部署。Beep 解决这个:事件解析时立刻打款。带走的洞察:agent loop 会重塑它依赖的每一层基础设施,从支付轨道开始。
💡#23
@falkenprotocol
https://x.com/falkenprotocol/status/2047855423324106820
FALKEN 第一次端到端的实盘 agent loop 测试:3 场以上扑克同时跑、5 轮全程链上结算。零卡顿、零人工干预。本周早些时候部署的自愈恢复逻辑自动捕获并修复静默掉单问题。自治 loop 跑完整闭环:LLM 推理→agent commit→裁判验证→链上结算→下一轮。有意思的不是扑克本身——是"并发场次扩到任意数量、系统不退化"现在做得到了。
💡#24
@abhishek__AI
https://x.com/abhishek__AI/status/2047875382721069494
HuggingFace 发了 ML Intern——能自治研究、训练、上线模型的 AI 工程师。读论文 + 文档、CLI 有 headless 模式、用 HF 数据集和 repo、单次 agent loop 最高 300 轮。100% 开源。"300 轮 loop 是默认配置"这件事,让 Karpathy 的 autoresearch 看起来都偏大众化了。
💡#25
@greypixel_
https://x.com/greypixel_/status/2048168671248347191
对"我同时跑 N 个 agent"那种炫耀的反对票。"20 个就太离谱了,结果只能是一团乱。一个 agent loop 能有用地跑多久,跟你为它做准备的时间成正比。"准备工作不是可选项,是决定过夜跑出活儿还是出垃圾的关键。
💡#26
@MehdiBuilds
https://x.com/MehdiBuilds/status/2048106386912129385
个人 AI 第二大脑 agent 的生产 stack:TypeScript + Node 18,ESM、tsup 构建。Vercel AI SDK v4 跑 generateText/streamText,10 步 agentic loop,provider fallback。grammY 做 Telegram 机器人(输入指示器、可编辑的流式、文件上传)。SQLite + FTS5 做知识层。JSONL 存短期/长期/情节记忆。Daemon 管理器配 PID 文件 + 看门狗崩溃恢复。原生集成 macOS LaunchAgent / Linux systemd / Windows Task Scheduler。给"住在你手机里的常开 agent"提供了具体的参考架构。
📡 生态产品雷达
生态产品雷达

Karpathy's Autoresearch(program.md repo) — 今天 8+ 篇推文都引用为基础:发布的衍生作品包括 @amittimalsina14 加闸门版、@Pycognito 接 graphDB 的特征工程、@TheGreenCedar 的 Codex 移植、@gauthampai 的 DAG planner、@tyschultz7 的单元测试发现 loop。原 repo 成了大家迭代的 spec。

Hermes Agent — 自进化的开源 agent,永久记忆。和 autoresearch 并列为过夜 loop 的主流底座;@TensorSlay 的 LORA 实验就训练在 hermes-agent 的 trace 上。迁移工具和 skill 兼容性是大家选它而不是 OpenClaw 的实际原因。

Pi(pi-mono/agent) — 按 @0xSero 说法 cache 命中率最高、单 session token 消耗最低、bug 最少。"最小可用 harness"的参考实现。

Codex / GPT-5.5 harness — 出现在 @BuilderGerman 的 hook 架构、@TheGreenCedar 的 autoresearch 移植、@Pycognito 的框架里。Codex hooks(PreToolUse、PostToolUse)现在已经是成本控制的标配。

Polymarket 开源 agent 全家桶 — py-clob-client、polymarket/agents、poly-market-maker、clob-client。@dunik_7、@bit_finance_、@0xvati 的结算轨道贴文里都点名。驱动 90% 交易所 agent 利润的开源配方。

ML Intern(HuggingFace) — 300 轮自治 agent loop、headless CLI、原生 HF 数据集/repo 集成。开源。是"agent loop 默认配置以工业级规模出货"的数据点。

GEPA / DSPy — @donpark 提议把 thinking hooks 套进 DSPy/GEPA + autoresearch loop。DSPy stack 还是搭"prompt 进化系统"的 canonical 选择。

Vercel AI SDK v4 — generateText + streamText 配 10 步 agentic loop 加 provider fallback。@MehdiBuilds 引用为认真的 agent 产品的生产时运行时。

Qwen3.6(开 preserve_thinking) — 一行配置(chat_template_kwargs 里 preserve_thinking: true)让推理跨轮保留。让 Qwen 从单轮助手变成可用 agent loop 驱动的修复。
← 上一篇
超级用户日报: 2026-04-27
下一篇 →
灵感雷达: 2026-04-27
← 返回所有文章

评论

加载中...
>_