2026年3月16日FrameworkOpen SourceAgentsTool

阿里巴巴 Page Agent — 开源页内 GUI 智能体,自然语言控制网页

阿里巴巴开源了 Page Agent,一个 JavaScript 库,可以将任何网页变成智能体可操作的界面。只需添加一行 script 标签,AI 智能体就能通过自然语言命令控制页面——点击按钮、填写表单、导航菜单、提取数据,全部通过纯 DOM 操作实现。

与依赖截图和视觉模型的浏览器自动化智能体不同,Page Agent 直接操作 DOM。它轻量级,无需浏览器扩展或无头 Chrome,完全运行在页面上下文中。支持任意 LLM 后端——OpenAI、Claude、DeepSeek、通义千问、Gemini,或通过 Ollama 使用本地模型。

内置的人工审批步骤确保用户可以在每个操作执行前进行审查和确认,在关键操作中保持人类在环。MIT 开源协议使其可自由适配于任何场景。

Page Agent 代表了一种不同的网页智能体思路:智能体不是从外部操控浏览器,而是直接驻留在网页内部。这使得集成到现有 Web 应用更加容易,智能体可以直接访问 DOM 结构,而非依赖像素级别的图像识别。

GitHub:https://github.com/alibaba/page-agent
演示:https://alibaba.github.io/page-agent/
← 上一篇
UnityAI 完成 850 万美元 A 轮融资,部署医疗领域自主 AI 智能体
下一篇 →
XSkill — 多模态智能体从经验和技能中持续学习
← 返回所有文章