2026年3月27日FrameworkOpen SourceAgentsTool

Alibaba Page Agent — 自然言語ウェブ操作のためのオープンソースGUIエージェント

Alibabaは、ウェブページをエージェント操作可能なインターフェースに変換するJavaScriptライブラリ、Page Agentをオープンソース化しました。1つのスクリプトタグを追加するだけで、AIエージェントは自然言語コマンドでページを操作できます——ボタンのクリック、フォームの入力、メニューのナビゲーション、データの抽出を純粋なDOM操作で行います。

スクリーンショットとビジョンモデルに依存するブラウザオートメーションエージェントとは異なり、Page AgentはDOMと直接連携します。軽量で、ブラウザ拡張やヘッドレスChromeは不要、完全にページコンテキスト内で実行されます。OpenAI、Claude、DeepSeek、Qwen、Gemini、Ollama経由のローカルモデルなど、任意のLLMバックエンドをサポートします。

組み込みの人間承認ステップにより、ユーザーは実行前に各アクションを確認・承認でき、重要な操作で人間をループに保ちます。MITライセンスで任意のユースケースに自由に適応可能です。

Page Agentはウェブエージェントへの異なるアプローチを示しています:エージェントが外部からブラウザを操作する代わりに、エージェントがウェブページ内部に存在します。これにより既存のウェブアプリケーションへの統合が容易になり、ピクセルレベルの解釈に頼るのではなくDOM構造への直接アクセスが可能になります。

GitHub:https://github.com/alibaba/page-agent
デモ:https://alibaba.github.io/page-agent/
← 前の記事
XSkill — マルチモーダルエージェントにおける経験とスキルからの継続学習
次の記事 →
UnityAI、自律型ヘルスケアAIエージェント向けに850万ドルのシリーズAを調達
← すべての記事に戻る

Comments

Loading...
>_