2026年4月26日ResearchSkillsAgents

同一个模型加几页 Markdown,工作流生成准确率从 44% 拉到 83%

arXiv 上一篇克拉科夫的新论文(2604.21910)安静地证实了整个 Skills 押注。任务设定:把科学家的自然语言研究问题转成一个可执行的计算工作流。难问题,典型的 LLM 战场,里面全是基模没见过的长尾词汇。

架构分三层。最上层:LLM 从问题里提取 intent。中间层:一个确定性生成器把 intent 转成 workflow DAG。最下层:领域专家把 Skills 写成纯 Markdown 文档,把基模不知道的术语、约束和优化技巧编码进去。关键设计是结构上的——他们把所有 LLM 的不确定性圈在最上面一层。相同 intent 永远产出相同 workflow。

数字是真正的看点。没有 Skills:intent 准确率 44%。有 Skills:83%。同一个基模。Skills 还顺手把数据传输压了 92%,因为它告诉系统哪些字段是真需要的。端到端开销 15 秒以内,单次查询成本不到一美分的十分之一。

为什么这件事超出了科学计算本身。这已经是连续第三周了——Anthropic 的 Skills、mattpocock/skills、Composio 的 awesome-codex-skills、google/agents-cli 的 skills,现在加上这篇论文——Skills 格式在完全无关的场景里反复出现。底下是同一个押注:你可以靠塞一份专家写的 Markdown 文档,让一个冻结的基模在垂类上变成专家。不用 fine-tune,不用 RAG,不用 embedding。就是纸上的字。

如果 Markdown 在一个真实的科学任务上能换 39 个百分点的准确率,那对每一个在做 agent 的团队来说,问题已经不是要不要写 Skills 了。是你团队里谁有资格写出那种真正起作用的 Skills。

论文:https://arxiv.org/abs/2604.21910
← 上一篇
Google 悄悄发了 agents-cli,把每个 coding assistant 都变成 Vertex 工人
← 返回所有文章

评论

加载中...
>_