安装用于PDF文本提取的Poppler

2024-10-03 02:46:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图跟随这个博客,试图从发票pdf文件中提取文本。“我的文本提取”要求提取发票的特定字段

https://kaijento.github.io/2017/03/27/pdf-scraping-gwinnetttaxcommissioner.publicaccessnow.com/#pdftotext

我试过pdfminer和textract,但它们都将文本提取为混乱的文本,之后很难提取文本

我发现Poppler软件包下载如下:

https://poppler.freedesktop.org/releases.html

看起来它是一个.tar文件。而不是python包

我不知道如何使用这个.tar文件来提取包并在Python中使用它

任何关于我如何在mac上安装它,然后在python中以编程方式使用它来运行一组pdf文件以提取数据的建议


Tags: 文件httpsio文本githubcompdf发票
2条回答

使用subprocess从xpdf工具调用pdftotext程序。您可以在https://www.xpdfreader.com/download.html找到这些工具的ms windows版本。获取“Xpdf命令行工具”

我这样使用它(python 3.7):

import subprocess as sp

def pdftotext(path):
    """
    Generate a text rendering of a PDF file in the form of a list of lines.
    """
    args = ['pdftotext', '-layout', path, '-']
    cp = sp.run(
      args, stdout=sp.PIPE, stderr=sp.DEVNULL,
      check=True, text=True
    )
    return cp.stdout

您可以在此处尝试python的poppler:https://pypi.org/project/python-poppler-qt5/

相关问题 更多 >