从pdf-fi中提取所有图像和文本

2024-06-26 04:18:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要从pdf创建json来将pdf内容呈现为HTML,其中包含所有的图像和文本。我已经尝试了下面的模块来做到这一点。我现在只能提取普通图像,但不能提取图形图像和背景阴影图像。有什么模块可以拿到这些吗?在

模块已尝试

-PDFMiner (python)
-Mammoth(Node)   
-pdf2json(Node)   
-PDFBox(Java)

Tags: 模块图像文本nodejson内容pdfhtml