如何用python对从pdf中提取的文本进行正确编码?

2024-09-27 04:19:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用pypdf2提取pdf的内容。但是结果并没有很好的编码。例如:“e”和“a”被其他符号代替。我希望提取的结果被正确编码为utf-8,pdf的语言是法语。我用来开始工作的代码可以在以下链接找到:https://www.dev2qa.com/how-to-extract-text-from-pdf-in-python/

谢谢大家的帮助。你知道吗

我已经尝试过使用编码和解码,但没有成功,(我可能使用它们不正确)

# Open the pdf file in read binary mode.
fileObject = open(filePath, 'rb')

# Create a pdf reader .
pdfFileReader = PyPDF2.PdfFileReader(fileObject, strict=False)

# Get total pdf page number.
totalPageNumber = pdfFileReader.numPages

currentPageNumber = 0
text = ''

while(currentPageNumber < 3 ):

    # Get the specified pdf page object.
    pdfPage = pdfFileReader.getPage(currentPageNumber)

    # Get pdf page text.
    text = text + pdfPage.extractText()
    text.encode('utf-8',"ignore")


    # Process next page.
    currentPageNumber += 1

pdfText = text

下面是我得到的结果:

Fr@nceElectricPage 1/12Aspectsde la norme NF C15-100D•apr†s l•auteur, la norme NF 15-100 fixe la r‡glementation des installations ‡lectriques. Elle est r‡guli†rement remise … jour pour prendre 

我想要的输出:

FranceElectricPage 1/12Aspectsde la norme NF C15-100D•après l'auteur, la norme NF 15-100 fixe la réglementation des installations électriques. Elle est réguliérement remise … jour pour prendre

Tags: thetextin编码getpdfpagela

热门问题