OpenDataLoader PDF:GitHubトレンド1位——GPU不要のAI対応PDFパーサー
OpenDataLoader PDFが本日GitHubでトレンド1位となり、1日で1,394スターを獲得した。ルールベースの決定論的抽出(GPU不要)、すべての要素のバウンディングボックス、XY-Cut++読み取り順序、組み込みAI安全フィルター、ネイティブのTagged PDFサポートを兼ね備えた唯一のオープンソースPDFパーサーだ。
このツールは、マルチカラムや科学論文を含む200の実世界PDFで全体精度0.90、テーブル精度0.93と1位にランクされ、CPUのみでローカル実行される。Markdown、JSON(バウンディングボックス付き)、HTMLを出力し、ハイブリッドモードで80以上の言語のOCRをサポートする。
HancomがApache 2.0ライセンスでリリースしたバージョン2.0には、OCR、テーブル、数式、チャート用の4つの無料AIアドオンが含まれる。エージェントRAGパイプラインで直接使用するためのLangChain統合(langchain-opendataloader-pdf)も利用可能だ。
エージェントエコシステムにおいて、このツールは重要なデータ取り込み問題を解決する。エージェントは最も一般的なドキュメント形式の一つであるPDFから構造化された正確なデータを、高価なGPUインフラなしで必要としている。
インストール:pip install opendataloader-pdf
GitHub:https://github.com/opendataloader-project/opendataloader-pdf
← すべての記事に戻る
このツールは、マルチカラムや科学論文を含む200の実世界PDFで全体精度0.90、テーブル精度0.93と1位にランクされ、CPUのみでローカル実行される。Markdown、JSON(バウンディングボックス付き)、HTMLを出力し、ハイブリッドモードで80以上の言語のOCRをサポートする。
HancomがApache 2.0ライセンスでリリースしたバージョン2.0には、OCR、テーブル、数式、チャート用の4つの無料AIアドオンが含まれる。エージェントRAGパイプラインで直接使用するためのLangChain統合(langchain-opendataloader-pdf)も利用可能だ。
エージェントエコシステムにおいて、このツールは重要なデータ取り込み問題を解決する。エージェントは最も一般的なドキュメント形式の一つであるPDFから構造化された正確なデータを、高価なGPUインフラなしで必要としている。
インストール:pip install opendataloader-pdf
GitHub:https://github.com/opendataloader-project/opendataloader-pdf
Comments