2026年3月27日Agent-OperableOpen SourceTool

OpenDataLoader PDF:GitHubトレンド1位——GPU不要のAI対応PDFパーサー

OpenDataLoader PDFが本日GitHubでトレンド1位となり、1日で1,394スターを獲得した。ルールベースの決定論的抽出(GPU不要)、すべての要素のバウンディングボックス、XY-Cut++読み取り順序、組み込みAI安全フィルター、ネイティブのTagged PDFサポートを兼ね備えた唯一のオープンソースPDFパーサーだ。

このツールは、マルチカラムや科学論文を含む200の実世界PDFで全体精度0.90、テーブル精度0.93と1位にランクされ、CPUのみでローカル実行される。Markdown、JSON(バウンディングボックス付き)、HTMLを出力し、ハイブリッドモードで80以上の言語のOCRをサポートする。

HancomがApache 2.0ライセンスでリリースしたバージョン2.0には、OCR、テーブル、数式、チャート用の4つの無料AIアドオンが含まれる。エージェントRAGパイプラインで直接使用するためのLangChain統合(langchain-opendataloader-pdf)も利用可能だ。

エージェントエコシステムにおいて、このツールは重要なデータ取り込み問題を解決する。エージェントは最も一般的なドキュメント形式の一つであるPDFから構造化された正確なデータを、高価なGPUインフラなしで必要としている。

インストール:pip install opendataloader-pdf
GitHub:https://github.com/opendataloader-project/opendataloader-pdf
← 前の記事
MCPCore:ブラウザからMCPサーバーを構築・テスト・デプロイ
次の記事 →
Cook:Claude Code、Codex、OpenClawを統合するワークフローループCLI
← すべての記事に戻る

Comments

Loading...
>_