2026年4月12日Agents Open Source Research Tool

MolmoWeb：AI2 开源了一个用眼睛操作网页的 Agent

AI2 刚放出 MolmoWeb，开源网页 agent 的格局变了。一个 8B 模型，通过看截图来操作浏览器——跟你用电脑的方式一样——在关键网页导航任务上打败了基于 GPT-4o 构建的 agent。不需要解析 DOM，不需要可访问性树。纯视觉。

模型有 4B 和 8B 两个尺寸，基于 Molmo 2 多模态家族。给它一个任务和一个实时网页，它通过截图观察页面，预测下一步操作，执行浏览器动作——点击、输入、滚动。8B 版本在 WebVoyager 上得分 78.2%，DeepShop 上 42.3%。

但真正的宝藏是数据。MolmoWebMix 包含 30,000 条跨越 1,100+ 网站的人类任务轨迹，590,000 个子任务示范，220 万对截图问答。AI2 说这是有史以来最大的公开人类网页任务执行数据集。光这个数据集就能撑起十几个研究项目。

关键一点：MolmoWeb 训练时没有从闭源视觉 agent 蒸馏。训练数据来自纯文本可访问性树 agent 生成的合成轨迹加上真人演示。这意味着在训练数据来源上没有法律灰色地带。

全部开源：权重、训练代码、评估工具、标注工具、合成数据管线、演示客户端。如果你相信 AI agent 的未来包括通过视觉操作网站和应用，这是现有最完整的开源起点。

https://github.com/allenai/molmoweb

← 上一篇

腾讯开源 HY-Embodied — 给机器人装一个 2B 参数的大脑

Kronos：第一个专门看K线的基础模型

← 返回所有文章

加载中...

MolmoWeb：AI2 开源了一个用眼睛操作网页的 Agent

相关文章

评论