2026年3月19日Agent-OperableOpen SourceTool

OpenDataLoader PDF:GitHub 今日热榜第一的 AI 就绪 PDF 解析器,无需 GPU

OpenDataLoader PDF 今日登上 GitHub 热榜第一,单日新增 1,394 颗星。它是唯一一款结合了基于规则的确定性提取(无需 GPU)、每个元素的边界框、XY-Cut++ 阅读顺序、内置 AI 安全过滤器和原生 Tagged PDF 支持的开源 PDF 解析器。

该工具在 200 份真实世界 PDF(包括多栏和科学论文)的测试中,总体准确率排名第一(0.90),表格准确率达 0.93,且完全在 CPU 上本地运行。支持输出 Markdown、JSON(含边界框)和 HTML 格式,混合模式下支持 80+ 语言的 OCR。

2.0 版本由韩国 Hancom 公司发布,采用 Apache 2.0 许可证,包含 OCR、表格、公式和图表四个免费 AI 插件。还提供 LangChain 集成(langchain-opendataloader-pdf),可直接用于智能体 RAG 管道。

对于智能体生态而言,该工具解决了关键的数据摄入问题:智能体需要从 PDF——最常见的文档格式之一——中获取结构化、准确的数据,而无需昂贵的 GPU 基础设施。

安装:pip install opendataloader-pdf
GitHub: https://github.com/opendataloader-project/opendataloader-pdf
← 上一篇
Cook:编排 Claude Code、Codex 和 OpenCode 的工作流循环 CLI
下一篇 →
MCPCore:在浏览器中构建、测试和部署 MCP 服务器
← 返回所有文章
>_