pdf处理相关资源 独立资源开发

标题分类备注
liteparsepdf比LlamaParse快,本地运行
kreuzberg框架支持多种编程语言和多种文档格式提取编排,后端支持Tesseract、PaddleOCR、EasyOCR
GLM-OCRocr智谱
langchain-paddleocr百度pip install langchain-paddleocr,性能很好,可以云端
OpenDataLoaderpdf解析markdownjava,完全本地运行,只用CPU不用GPU,免费开源。原帖里直说“100+页/秒”,几千页的资料几分钟就转完Markdown,完美喂给本地LLM。docker部署,http调用。
embed-pdf-viewerpdf预览比较新
tika文档抽取java好项目,多种文档解析
BabelDOCocr论文翻译神器
OpenDoc-0.1Bocr复旦大学视觉与学习实验室开源了超轻量文档解析系统
imagepdf2txtocr图片型的pdf处理,使用paddle
OCRmyPDFocr用Tesseract OCR,支持命令行,批量处理
MinerUpdf解析可以解析latex公式,需要至少16GB的GPU
PDFMathTranslatepdf翻译工具
zeroxocrpython的ocr工具
Stirling-PDF格式转换多种pdf格式转换,私有部署
ParseStudiopdf导出集成了多种工具
itext-dotnetpdfnet的pdf工具包

作者:spike

分类: 资料

创作时间:2024-11-05

更新时间:2026-04-01