| liteparse | pdf | 比LlamaParse快,本地运行 |
| kreuzberg | 框架 | 支持多种编程语言和多种文档格式提取编排,后端支持Tesseract、PaddleOCR、EasyOCR |
| GLM-OCR | ocr | 智谱 |
| langchain-paddleocr | 百度 | pip install langchain-paddleocr,性能很好,可以云端 |
| OpenDataLoader | pdf解析markdown | java,完全本地运行,只用CPU不用GPU,免费开源。原帖里直说“100+页/秒”,几千页的资料几分钟就转完Markdown,完美喂给本地LLM。docker部署,http调用。 |
| embed-pdf-viewer | pdf预览 | 比较新 |
| tika | 文档抽取 | java好项目,多种文档解析 |
| BabelDOC | ocr | 论文翻译神器 |
| OpenDoc-0.1B | ocr | 复旦大学视觉与学习实验室开源了超轻量文档解析系统 |
| imagepdf2txt | ocr | 图片型的pdf处理,使用paddle |
| OCRmyPDF | ocr | 用Tesseract OCR,支持命令行,批量处理 |
| MinerU | pdf解析 | 可以解析latex公式,需要至少16GB的GPU |
| PDFMathTranslate | pdf翻译工具 | |
| zerox | ocr | python的ocr工具 |
| Stirling-PDF | 格式转换 | 多种pdf格式转换,私有部署 |
| ParseStudio | pdf导出 | 集成了多种工具 |
| itext-dotnet | pdf | net的pdf工具包 |