Skip to main content
热门资源汇总热门资源汇总

Search: #opendataloader

#opendataloader #Java #TGAgent

OpenDataLoader PDF 是一个开源的 PDF 解析与无障碍化自动化工具,旨在将 PDF 文件转换为适用于 RAG/LLM 管道的结构化数据(如 Markdown、JSON)。该项目基于 Java 11+ 构建,并提供 Python、Node.js 等多语言 SDK,具备 XY-Cut++ 阅读顺序解析、元素边界框定位及混合 AI 模式等特点。它在主流提取基准测试中综合准确率排名第一,同时支持自动生成符合规范的 Tagged PDF 以加速无障碍修复。

https://github.com/opendataloader-project/opendataloader-pdf

📡 来源:@shenzjd_com