python从PDF页面提取文本到lis

2024-10-01 17:36:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试从一个PDF文件中提取文本页面,并将文本作为一个列表存储在一个列表中

[['This', 'is', 'one', 'page'] , ['I', 'am', 'page', 'TWO'] , ['Three', 'that\'s', 'me'] , ['and', 'so', 'on'] , ['...']]

我使用了来自PyPDF2 packageextractText()方法:

#!/usr/bin/python

from PyPDF2 import PdfFileReader

# open PDF
myPDFpath = 'test.pdf'
myPDF = PdfFileReader(open(myPDFpath, "rb"))

# initialize page list
pagelist = []

# grab all text from PDF per page and put into page list    
for page in range(0, myPDF.getNumPages()):
    currentPage = myPDF.getPage(page)
    myText = currentPage.extractText()
    thispage = myText.split()
    pagelist.append(thispage)

上面的代码在技术上可以工作,但是方法不可靠(根据自己的doc),抛出如下输出:

^{pr2}$

所以我想知道有没有其他可靠的方法来解析Python中PDF文件中的文本?在


Tags: and文件方法from文本列表pdfpage
1条回答
网友
1楼 · 发布于 2024-10-01 17:36:50

你可以试试这个:

import PyPDF2

pages = []
pdf_file = <Enter your file path>
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
for page_number in range(number_of_pages):   # use xrange in Py2
    page = read_pdf.getPage(page_number).extractText().split(" ")  # Extract page wise text then split based on spaces as required by you
    pages.append(page)

相关问题 更多 >

    热门问题