2026年4月26日Research Skills Agents

同一个模型加几页 Markdown，工作流生成准确率从 44% 拉到 83%

arXiv 上一篇克拉科夫的新论文（2604.21910）安静地证实了整个 Skills 押注。任务设定：把科学家的自然语言研究问题转成一个可执行的计算工作流。难问题，典型的 LLM 战场，里面全是基模没见过的长尾词汇。

架构分三层。最上层：LLM 从问题里提取 intent。中间层：一个确定性生成器把 intent 转成 workflow DAG。最下层：领域专家把 Skills 写成纯 Markdown 文档，把基模不知道的术语、约束和优化技巧编码进去。关键设计是结构上的——他们把所有 LLM 的不确定性圈在最上面一层。相同 intent 永远产出相同 workflow。

数字是真正的看点。没有 Skills：intent 准确率 44%。有 Skills：83%。同一个基模。Skills 还顺手把数据传输压了 92%，因为它告诉系统哪些字段是真需要的。端到端开销 15 秒以内，单次查询成本不到一美分的十分之一。

为什么这件事超出了科学计算本身。这已经是连续第三周了——Anthropic 的 Skills、mattpocock/skills、Composio 的 awesome-codex-skills、google/agents-cli 的 skills，现在加上这篇论文——Skills 格式在完全无关的场景里反复出现。底下是同一个押注：你可以靠塞一份专家写的 Markdown 文档，让一个冻结的基模在垂类上变成专家。不用 fine-tune，不用 RAG，不用 embedding。就是纸上的字。

如果 Markdown 在一个真实的科学任务上能换 39 个百分点的准确率，那对每一个在做 agent 的团队来说，问题已经不是要不要写 Skills 了。是你团队里谁有资格写出那种真正起作用的 Skills。

论文：https://arxiv.org/abs/2604.21910

← 上一篇

Google 悄悄发了 agents-cli，把每个 coding assistant 都变成 Vertex 工人

← 返回所有文章

加载中...

同一个模型加几页 Markdown，工作流生成准确率从 44% 拉到 83%

更多文章

评论