从pdf-fi中提取所有图像和文本

2024-06-26 04:18:21 发布

男 | 程序猿一只，喜欢编程写python代码。

我需要从pdf创建json来将pdf内容呈现为HTML，其中包含所有的图像和文本。我已经尝试了下面的模块来做到这一点。我现在只能提取普通图像，但不能提取图形图像和背景阴影图像。有什么模块可以拿到这些吗？在

模块已尝试

-PDFMiner (python)
-Mammoth(Node)   
-pdf2json(Node)   
-PDFBox(Java)

Tags：模块图像文本 node json 内容 pdf html

1条回答

网友

1楼 · 发布于 2024-06-26 04:18:21

看看http://pythonhosted.org/PyMuPDF/。显然，这个产品以各种格式呈现页面，包括json。虽然我对它的经验有限，但是http://code.activestate.com/recipes/580703-extract-images-of-a-pdf-optionally-by-page-using-p/history/1/上的菜谱展示了如何使用PyMuPDF从PDF中提取图像。在