OpenDataLoader PDF:GitHub第1位トレンド——GPU不要のAI対応PDFパーサー
OpenDataLoader PDFは本日GitHubで1日で1,394スターを獲得し第1位にトレンド入りしています。ルールベースの決定論的抽出(GPU不要)、全要素のバウンディングボックス、XY-Cut++読み順、組み込みAI安全フィルター、ネイティブTagged PDFサポートを組み合わせた唯一のオープンソースPDFパーサーです。
マルチカラムや科学論文を含む200の実際のPDFにわたり、総合精度0.90、テーブル精度0.93で第1位にランクされ、CPUのみでローカル実行が可能です。Markdown、JSON(バウンディングボックス付き)、HTMLを出力し、ハイブリッドモードで80以上の言語のOCRをサポートします。
Apache 2.0ライセンスでHancomがリリースしたバージョン2.0には、OCR、テーブル、数式、チャートの4つの無料AIアドオンが含まれています。エージェントRAGパイプラインで直接使用するためのLangChain統合(langchain-opendataloader-pdf)も利用可能です。
エージェンティックエコシステムにとって、このツールは重要なデータ取り込みの問題を解決します:エージェントは最も一般的なドキュメントフォーマットの1つであるPDFから、高価なGPUインフラなしで構造化された正確なデータを必要としています。
インストール:pip install opendataloader-pdf
GitHub:https://github.com/opendataloader-project/opendataloader-pdf
← すべての記事に戻る
マルチカラムや科学論文を含む200の実際のPDFにわたり、総合精度0.90、テーブル精度0.93で第1位にランクされ、CPUのみでローカル実行が可能です。Markdown、JSON(バウンディングボックス付き)、HTMLを出力し、ハイブリッドモードで80以上の言語のOCRをサポートします。
Apache 2.0ライセンスでHancomがリリースしたバージョン2.0には、OCR、テーブル、数式、チャートの4つの無料AIアドオンが含まれています。エージェントRAGパイプラインで直接使用するためのLangChain統合(langchain-opendataloader-pdf)も利用可能です。
エージェンティックエコシステムにとって、このツールは重要なデータ取り込みの問題を解決します:エージェントは最も一般的なドキュメントフォーマットの1つであるPDFから、高価なGPUインフラなしで構造化された正確なデータを必要としています。
インストール:pip install opendataloader-pdf
GitHub:https://github.com/opendataloader-project/opendataloader-pdf
Comments