2026年3月27日Agent-OperableOpen SourceTool

OpenDataLoader PDF:GitHub第1位トレンド——GPU不要のAI対応PDFパーサー

OpenDataLoader PDFは本日GitHubで1日で1,394スターを獲得し第1位にトレンド入りしています。ルールベースの決定論的抽出(GPU不要)、全要素のバウンディングボックス、XY-Cut++読み順、組み込みAI安全フィルター、ネイティブTagged PDFサポートを組み合わせた唯一のオープンソースPDFパーサーです。

マルチカラムや科学論文を含む200の実際のPDFにわたり、総合精度0.90、テーブル精度0.93で第1位にランクされ、CPUのみでローカル実行が可能です。Markdown、JSON(バウンディングボックス付き)、HTMLを出力し、ハイブリッドモードで80以上の言語のOCRをサポートします。

Apache 2.0ライセンスでHancomがリリースしたバージョン2.0には、OCR、テーブル、数式、チャートの4つの無料AIアドオンが含まれています。エージェントRAGパイプラインで直接使用するためのLangChain統合(langchain-opendataloader-pdf)も利用可能です。

エージェンティックエコシステムにとって、このツールは重要なデータ取り込みの問題を解決します:エージェントは最も一般的なドキュメントフォーマットの1つであるPDFから、高価なGPUインフラなしで構造化された正確なデータを必要としています。

インストール:pip install opendataloader-pdf
GitHub:https://github.com/opendataloader-project/opendataloader-pdf
← 前の記事
MCPCore:ブラウザからMCPサーバーを構築・テスト・デプロイ
次の記事 →
Cook:Claude Code、Codex、OpenCodeをオーケストレーションするワークフローループCLI
← すべての記事に戻る

Comments

Loading...
>_