我试图从PDF中提取数据并将其保存到excel文件中。这是我需要的pdf:https://www.medicaljournals.se/acta/content_files/files/pdf/98/219/Suppl219.pdf
但是,我需要的不是所有数据,而是以下数据(如下),然后将其保存到不同单元格中的excel中: 从第5页开始,从P001到并包括简介——有一个P编号、标题、人名和简介
目前,我只能将PDF文件转换为文本(下面是我的代码),并将其全部保存在一个单元格中,但我需要将其分离到不同的单元格中
import PyPDF2 as p2
PDFfile = open('Abstract Book from the 5th World Psoriasis and Psoriatic Arthritis
Conference 2018.pdf', 'rb')
pdfread = p2.PdfFileReader(PDFfile)
pdflist = []
i = 6
while i<pdfread.getNumPages():
pageinfo = pdfread.getPage(i)
#print(pageinfo.extractText())
i = i + 1
pdflist.append(pageinfo.extractText().replace('\n', ''))
print(pdflist)
您主要需要的是15个大写字母的“header”正则表达式和3位数字的“article”正则表达式字母“p”。 还有一个正则表达式可以帮助您将文本除以任何关键字
相关问题 更多 >
编程相关推荐