PDF處理相關資源 獨立資源開發

標題分類備註
liteparsepdf比LlamaParse快,本地運行
kreuzberg框架支援多種程式語言和多種文件格式提取編排,後端支援Tesseract、PaddleOCR、EasyOCR
GLM-OCRocr智譜
langchain-paddleocr百度pip install langchain-paddleocr,性能很好,可以雲端
OpenDataLoaderpdf解析markdownjava,完全本地運行,只用CPU不用GPU,免費開源。原帖裡直說「100+頁/秒」,幾千頁的資料幾分鐘就轉完Markdown,完美餵給本地LLM。docker部署,http呼叫。
embed-pdf-viewerpdf預覽比較新
tika文件抽取java好項目,多種文件解析
BabelDOCocr論文翻譯神器
OpenDoc-0.1Bocr復旦大學視覺與學習實驗室開源了超輕量文件解析系統
imagepdf2txtocr圖片型的pdf處理,使用paddle
OCRmyPDFocr用Tesseract OCR,支援命令列,批次處理
MinerUpdf解析可以解析latex公式,需要至少16GB的GPU
PDFMathTranslatepdf翻譯工具
zeroxocrpython的ocr工具
Stirling-PDF格式轉換多種pdf格式轉換,私有部署
ParseStudiopdf匯出整合了多種工具
itext-dotnetpdfnet的pdf工具包