| liteparse | pdf | 比LlamaParse快,本地運行 |
| kreuzberg | 框架 | 支援多種程式語言和多種文件格式提取編排,後端支援Tesseract、PaddleOCR、EasyOCR |
| GLM-OCR | ocr | 智譜 |
| langchain-paddleocr | 百度 | pip install langchain-paddleocr,性能很好,可以雲端 |
| OpenDataLoader | pdf解析markdown | java,完全本地運行,只用CPU不用GPU,免費開源。原帖裡直說「100+頁/秒」,幾千頁的資料幾分鐘就轉完Markdown,完美餵給本地LLM。docker部署,http呼叫。 |
| embed-pdf-viewer | pdf預覽 | 比較新 |
| tika | 文件抽取 | java好項目,多種文件解析 |
| BabelDOC | ocr | 論文翻譯神器 |
| OpenDoc-0.1B | ocr | 復旦大學視覺與學習實驗室開源了超輕量文件解析系統 |
| imagepdf2txt | ocr | 圖片型的pdf處理,使用paddle |
| OCRmyPDF | ocr | 用Tesseract OCR,支援命令列,批次處理 |
| MinerU | pdf解析 | 可以解析latex公式,需要至少16GB的GPU |
| PDFMathTranslate | pdf翻譯工具 | |
| zerox | ocr | python的ocr工具 |
| Stirling-PDF | 格式轉換 | 多種pdf格式轉換,私有部署 |
| ParseStudio | pdf匯出 | 整合了多種工具 |
| itext-dotnet | pdf | net的pdf工具包 |