OpenClick 是个谁也没指望苹果会自己做的开源 macOS 点击 agent
Riccardo Arvizzigno 今天在 Product Hunt 上线了 OpenClick。开源 CLI agent,通过 macOS 的 Accessibility API 控制电脑。你说"打开计算器算 17 乘 23",它就规划、截图、读 AX tree、执行、验证。模型无关,Anthropic、OpenAI、本地模型都行,零后端服务器,MIT 协议。
最值得说的是它读什么。不是 Standard Intelligence 那条 raw video 路线,也不是 Manus Cloud Computer 那种 OS 级虚拟环境,而是 macOS 的 accessibility tree 加截图。AX tree 白给你语义结构,截图填上 app 自绘 UI 的空。代价是苹果没通过 Accessibility API 暴露的东西它都看不见,所以 canvas 重的应用上它表现很糙,邮件、Finder、计算器、浏览器导航上反而稳得意外。
这是单人开发的 v0.2.0,不是成品。但在"系统能给的"和"LLM 能规划的"中间这一层,它是目前最干净的开源 macOS agent。Agent VM 押注现在分四派了:raw video、虚拟桌面、带 root 的裸 VM、accessibility tree。OpenClick 是第四派第一个像样的社区尝试。
项目页:https://www.producthunt.com/products/openclick。
← 返回所有文章
最值得说的是它读什么。不是 Standard Intelligence 那条 raw video 路线,也不是 Manus Cloud Computer 那种 OS 级虚拟环境,而是 macOS 的 accessibility tree 加截图。AX tree 白给你语义结构,截图填上 app 自绘 UI 的空。代价是苹果没通过 Accessibility API 暴露的东西它都看不见,所以 canvas 重的应用上它表现很糙,邮件、Finder、计算器、浏览器导航上反而稳得意外。
这是单人开发的 v0.2.0,不是成品。但在"系统能给的"和"LLM 能规划的"中间这一层,它是目前最干净的开源 macOS agent。Agent VM 押注现在分四派了:raw video、虚拟桌面、带 root 的裸 VM、accessibility tree。OpenClick 是第四派第一个像样的社区尝试。
项目页:https://www.producthunt.com/products/openclick。
评论