2026年5月18日ResearchSkillsOpen Source

MMSkills:视觉 agent 的知识本来就是多模态的,别再用纯文本存了

昨天上传的新 arXiv,上交大和合作者一起发的。2605.13527。标题 MMSkills, Towards Multimodal Skills for General Visual Agents。HuggingFace Daily Papers 当日榜首,99 票。代码在 github.com/DeepExperience/MMSkills。

论证比一般的 skills 论文锋利。现有 agent skill 基本是文本。skill 说做这个、再做这个、再做这个。Coding agent 行得通因为 agent 作用的世界本身就是文本。视觉 agent 就崩了。Agent 得从像素识别当前状态、解读「上一步做成了还是失败了」的视觉证据、决定下一步。这些东西只用文本指令存根本没法复用。MMSkills 把 skill 当成多模态记录:state cards(你应该处于的样子的像素)、keyframes(世界应该如何变化的像素),再加上把它们串起来的文本流程。

真正的贡献是生成 skill 的流水线。一个 agentic generator 把公开的非评测轨迹四步转成可复用的多模态 skill:工作流分组、流程归纳、视觉接地、meta-skill 引导的审计。推理时,一个分支加载式 agent 把相关 state cards 和 keyframes 加载到一个临时分支,对照实时环境对齐,然后把结构化指导蒸馏进主 agent 的上下文。审计这一步被低估了。别的 skills 论文要么信任合成器,要么花钱请人清洗。MMSkills 用一个 meta-skill 来验证。

结果横跨 GUI agent benchmark 和游戏视觉 agent benchmark。这些 skill 对前沿模型和较小多模态模型都有稳定提升。值得记住的解读:外部多模态过程记忆是对基础模型已有知识的补充。你不必重训模型,你只需要在对的时间给它看对的图。对任何在 GPT-5.5、Gemini、Claude 上做视觉 agent 的人来说,这是不动 finetune 的近期能力增量。

https://arxiv.org/abs/2605.13527
← 上一篇
Polarity 想填平 agent 评测 95 分到生产 60 分那个坑
下一篇 →
超级用户日报: 2026-05-19
← 返回所有文章

评论

加载中...
>_