MolmoWeb:AI2 开源了一个用眼睛操作网页的 Agent
AI2 刚放出 MolmoWeb,开源网页 agent 的格局变了。一个 8B 模型,通过看截图来操作浏览器——跟你用电脑的方式一样——在关键网页导航任务上打败了基于 GPT-4o 构建的 agent。不需要解析 DOM,不需要可访问性树。纯视觉。
模型有 4B 和 8B 两个尺寸,基于 Molmo 2 多模态家族。给它一个任务和一个实时网页,它通过截图观察页面,预测下一步操作,执行浏览器动作——点击、输入、滚动。8B 版本在 WebVoyager 上得分 78.2%,DeepShop 上 42.3%。
但真正的宝藏是数据。MolmoWebMix 包含 30,000 条跨越 1,100+ 网站的人类任务轨迹,590,000 个子任务示范,220 万对截图问答。AI2 说这是有史以来最大的公开人类网页任务执行数据集。光这个数据集就能撑起十几个研究项目。
关键一点:MolmoWeb 训练时没有从闭源视觉 agent 蒸馏。训练数据来自纯文本可访问性树 agent 生成的合成轨迹加上真人演示。这意味着在训练数据来源上没有法律灰色地带。
全部开源:权重、训练代码、评估工具、标注工具、合成数据管线、演示客户端。如果你相信 AI agent 的未来包括通过视觉操作网站和应用,这是现有最完整的开源起点。
https://github.com/allenai/molmoweb
← 返回所有文章
模型有 4B 和 8B 两个尺寸,基于 Molmo 2 多模态家族。给它一个任务和一个实时网页,它通过截图观察页面,预测下一步操作,执行浏览器动作——点击、输入、滚动。8B 版本在 WebVoyager 上得分 78.2%,DeepShop 上 42.3%。
但真正的宝藏是数据。MolmoWebMix 包含 30,000 条跨越 1,100+ 网站的人类任务轨迹,590,000 个子任务示范,220 万对截图问答。AI2 说这是有史以来最大的公开人类网页任务执行数据集。光这个数据集就能撑起十几个研究项目。
关键一点:MolmoWeb 训练时没有从闭源视觉 agent 蒸馏。训练数据来自纯文本可访问性树 agent 生成的合成轨迹加上真人演示。这意味着在训练数据来源上没有法律灰色地带。
全部开源:权重、训练代码、评估工具、标注工具、合成数据管线、演示客户端。如果你相信 AI agent 的未来包括通过视觉操作网站和应用,这是现有最完整的开源起点。
https://github.com/allenai/molmoweb
评论