如何使用Python提取PDF文档中的文本

2024-09-19 20:58:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我有大量的商业发票要处理,PDF格式。一些信息,如开票方,交易发生日期和金额需要提取。在

换句话说,我需要从每张商业发票上复制这些信息并粘贴到Excel电子表格中。在

这些信息在PDF文档中都位于同一位置,在每个PDF文档中始终位于同一位置。在

有没有一种方法可以让Python获取信息并将其存储到Excel电子表格中,而不是手动复制和粘贴?在

谢谢。在


Tags: 方法文档信息pdf粘贴格式交易手动
1条回答
网友
1楼 · 发布于 2024-09-19 20:58:55

要阅读pdf文件,可以使用StringIO

from StringIO import StringIO


pdfContent = StringIO(getPDFContent("Billineg.pdf").encode("ascii", "ignore"))
for line in pdfContent:
    print line

您可以使用的其他选项pypdf

小例子

^{pr2}$

提取数据后,您可以将它们写入^{}或对于excel,您可以使用^{}

getpdf内容是方法

import pyPdf  
def getPDFContent(path):
    content = ""
    num_pages = 10
    p = file(path, "rb")
    pdf = pyPdf.PdfFileReader(p)
    for i in range(0, num_pages):
        content += pdf.getPage(i).extractText() + "\n"
    content = " ".join(content.replace(u"\xa0", " ").strip().split())     
    return content 

相关问题 更多 >