github.com/pdf2htmlEX/pdf2htmlEX
这应该是效果相当好的一个PDF转HTML程序,生成的结果和原始PDF几乎一模一样。
其背后是利用的Chrome Headless,让Chrome渲染PDF,再导出成HTML,甚至图片都转成了 base64 字符,所以一个网页就可以包含完整的文本、字体和图片等内容。
PDF转HTML, Chrome Headless, 图片转base64, PDF渲染, HTML导出
pdf2htmlEX是一个高效的PDF转HTML工具,生成的HTML文件几乎与原始PDF一致,包含完整的文本、字体和图片,适合网页展示。