2026年5月19日Research Skills Open Source

MMSkills：视觉 agent 的知识本来就是多模态的，别再用纯文本存了

昨天上传的新 arXiv，上交大和合作者一起发的。2605.13527。标题 MMSkills, Towards Multimodal Skills for General Visual Agents。HuggingFace Daily Papers 当日榜首，99 票。代码在 github.com/DeepExperience/MMSkills。

论证比一般的 skills 论文锋利。现有 agent skill 基本是文本。skill 说做这个、再做这个、再做这个。Coding agent 行得通因为 agent 作用的世界本身就是文本。视觉 agent 就崩了。Agent 得从像素识别当前状态、解读「上一步做成了还是失败了」的视觉证据、决定下一步。这些东西只用文本指令存根本没法复用。MMSkills 把 skill 当成多模态记录：state cards（你应该处于的样子的像素）、keyframes（世界应该如何变化的像素），再加上把它们串起来的文本流程。

真正的贡献是生成 skill 的流水线。一个 agentic generator 把公开的非评测轨迹四步转成可复用的多模态 skill：工作流分组、流程归纳、视觉接地、meta-skill 引导的审计。推理时，一个分支加载式 agent 把相关 state cards 和 keyframes 加载到一个临时分支，对照实时环境对齐，然后把结构化指导蒸馏进主 agent 的上下文。审计这一步被低估了。别的 skills 论文要么信任合成器，要么花钱请人清洗。MMSkills 用一个 meta-skill 来验证。

结果横跨 GUI agent benchmark 和游戏视觉 agent benchmark。这些 skill 对前沿模型和较小多模态模型都有稳定提升。值得记住的解读：外部多模态过程记忆是对基础模型已有知识的补充。你不必重训模型，你只需要在对的时间给它看对的图。对任何在 GPT-5.5、Gemini、Claude 上做视觉 agent 的人来说，这是不动 finetune 的近期能力增量。

https://arxiv.org/abs/2605.13527

← 上一篇

Polarity 想填平 agent 评测 95 分到生产 60 分那个坑

超级用户日报: 2026-05-19

← 返回所有文章

加载中...

MMSkills：视觉 agent 的知识本来就是多模态的，别再用纯文本存了

相关文章

评论