2024-09-19 20:58:55 发布
网友
我有大量的商业发票要处理,PDF格式。一些信息,如开票方,交易发生日期和金额需要提取。在
换句话说,我需要从每张商业发票上复制这些信息并粘贴到Excel电子表格中。在
这些信息在PDF文档中都位于同一位置,在每个PDF文档中始终位于同一位置。在
有没有一种方法可以让Python获取信息并将其存储到Excel电子表格中,而不是手动复制和粘贴?在
谢谢。在
要阅读pdf文件,可以使用StringIO
from StringIO import StringIO pdfContent = StringIO(getPDFContent("Billineg.pdf").encode("ascii", "ignore")) for line in pdfContent: print line
您可以使用的其他选项pypdf
小例子
提取数据后,您可以将它们写入^{}或对于excel,您可以使用^{}
getpdf内容是方法
import pyPdf def getPDFContent(path): content = "" num_pages = 10 p = file(path, "rb") pdf = pyPdf.PdfFileReader(p) for i in range(0, num_pages): content += pdf.getPage(i).extractText() + "\n" content = " ".join(content.replace(u"\xa0", " ").strip().split()) return content
要阅读pdf文件,可以使用StringIO
您可以使用的其他选项pypdf
小例子
^{pr2}$提取数据后,您可以将它们写入^{} 或对于excel,您可以使用^{}
getpdf内容是方法
相关问题 更多 >
编程相关推荐