我正在尝试使用pypdf2
提取pdf的内容。但是结果并没有很好的编码。例如:“e”和“a”被其他符号代替。我希望提取的结果被正确编码为utf-8,pdf的语言是法语。我用来开始工作的代码可以在以下链接找到:https://www.dev2qa.com/how-to-extract-text-from-pdf-in-python/
谢谢大家的帮助。你知道吗
我已经尝试过使用编码和解码,但没有成功,(我可能使用它们不正确)
# Open the pdf file in read binary mode.
fileObject = open(filePath, 'rb')
# Create a pdf reader .
pdfFileReader = PyPDF2.PdfFileReader(fileObject, strict=False)
# Get total pdf page number.
totalPageNumber = pdfFileReader.numPages
currentPageNumber = 0
text = ''
while(currentPageNumber < 3 ):
# Get the specified pdf page object.
pdfPage = pdfFileReader.getPage(currentPageNumber)
# Get pdf page text.
text = text + pdfPage.extractText()
text.encode('utf-8',"ignore")
# Process next page.
currentPageNumber += 1
pdfText = text
下面是我得到的结果:
Fr@nceElectricPage 1/12Aspectsde la norme NF C15-100D•apr†s l•auteur, la norme NF 15-100 fixe la r‡glementation des installations ‡lectriques. Elle est r‡guli†rement remise … jour pour prendre
我想要的输出:
FranceElectricPage 1/12Aspectsde la norme NF C15-100D•après l'auteur, la norme NF 15-100 fixe la réglementation des installations électriques. Elle est réguliérement remise … jour pour prendre
目前没有回答
相关问题 更多 >
编程相关推荐