python从PDF页面提取文本到lis

#!/usr/bin/python from PyPDF2 import PdfFileReader # open PDF myPDFpath = 'test.pdf' myPDF = PdfFileReader(open(myPDFpath, "rb")) # initialize page list pagelist = [] # grab all text from PDF per page and put into page list for page in range(0, myPDF.getNumPages()): currentPage = myPDF.getPage(page) myText = currentPage.extractText() thispage = myText.split() pagelist.append(thispage)

1条回答

网友

1楼 · 发布于 2024-10-01 17:36:50

你可以试试这个：

import PyPDF2

pages = []
pdf_file = <Enter your file path>
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
for page_number in range(number_of_pages):   # use xrange in Py2
    page = read_pdf.getPage(page_number).extractText().split(" ")  # Extract page wise text then split based on spaces as required by you
    pages.append(page)

编程相关推荐

C++／爪哇／C图像处理库
由于类org的许多实例而导致java内存泄漏。jboss。vfs。spi。JavaZipFileSystem
java在Android中使用CustomMultiPartEntity取消上传文件
java根据另一个JCombobox填充JCombobox值
安卓 java，如何将Unicode字符更改为普通字符？
java每次出现“CCTGG”时，我为DNA序列创建的字符串生成器都会停止
java Android NDK应用程序抛出错误未满足链接错误
用Java实现mp3音频分解
如何在源java中使用weka 3.7.12中保存的svm（wlsvm）模型类
jsf Spring@Autowired（required=true）为空

相关问题更多 >

编程相关推荐

热门问题

热门文章

python从PDF页面提取文本到lis

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >