2024-06-26 04:18:21 发布
网友
我需要从pdf创建json来将pdf内容呈现为HTML,其中包含所有的图像和文本。我已经尝试了下面的模块来做到这一点。我现在只能提取普通图像,但不能提取图形图像和背景阴影图像。有什么模块可以拿到这些吗?在
模块已尝试
-PDFMiner (python) -Mammoth(Node) -pdf2json(Node) -PDFBox(Java)
看看http://pythonhosted.org/PyMuPDF/。显然,这个产品以各种格式呈现页面,包括json。虽然我对它的经验有限,但是http://code.activestate.com/recipes/580703-extract-images-of-a-pdf-optionally-by-page-using-p/history/1/上的菜谱展示了如何使用PyMuPDF从PDF中提取图像。在
看看http://pythonhosted.org/PyMuPDF/。显然,这个产品以各种格式呈现页面,包括json。虽然我对它的经验有限,但是http://code.activestate.com/recipes/580703-extract-images-of-a-pdf-optionally-by-page-using-p/history/1/上的菜谱展示了如何使用PyMuPDF从PDF中提取图像。在
相关问题 更多 >
编程相关推荐