我试图跟随这个博客,试图从发票pdf文件中提取文本。“我的文本提取”要求提取发票的特定字段
https://kaijento.github.io/2017/03/27/pdf-scraping-gwinnetttaxcommissioner.publicaccessnow.com/#pdftotext
我试过pdfminer和textract,但它们都将文本提取为混乱的文本,之后很难提取文本
我发现Poppler软件包下载如下:
https://poppler.freedesktop.org/releases.html
看起来它是一个.tar文件。而不是python包
我不知道如何使用这个.tar文件来提取包并在Python中使用它
任何关于我如何在mac上安装它,然后在python中以编程方式使用它来运行一组pdf文件以提取数据的建议
Tags:
使用
subprocess
从xpdf工具调用pdftotext
程序。您可以在https://www.xpdfreader.com/download.html找到这些工具的ms windows版本。获取“Xpdf命令行工具”我这样使用它(python 3.7):
您可以在此处尝试python的poppler:https://pypi.org/project/python-poppler-qt5/
相关问题 更多 >
编程相关推荐