我有成千上万的PDF文件,比如this one。在
我尝试使用PyPDF2将它们转换为纯文本(代码如下)。但是PyPDF2显然只“看到”了水印,而不是内容本身。我能在这里做什么?在
import os
import PyPDF2
path_to_pdfs = '/path/to/pdf/files/'
for filename in os.listdir(path_to_pdfs):
if '.pdf' in filename.lower():
with open(path_to_pdfs + filename, mode = 'rb') as f:
txt = ''
pdf_reader = PyPDF2.PdfFileReader(f)
num_pages = pdf_reader.numPages
for page in range(num_pages):
page_obj = pdf_reader.getPage(page)
page_text = page_obj.extractText()
txt = txt + '\n' + page_text
print(txt)
我在macos10.13.14上使用python3.5.1和PyPDF2 1.26.0。在
有时pdfminer3k会产生更好的结果。请查看“How to read pdf file using pdfminer3k?”
我测试了下面的代码,它提取了文本。然而,提取并不是100%准确。。。在
相关问题 更多 >
编程相关推荐