如何用python对从pdf中提取的文本进行正确编码？

2024-09-27 04:19:10 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试使用pypdf2提取pdf的内容。但是结果并没有很好的编码。例如：“e”和“a”被其他符号代替。我希望提取的结果被正确编码为utf-8，pdf的语言是法语。我用来开始工作的代码可以在以下链接找到：https://www.dev2qa.com/how-to-extract-text-from-pdf-in-python/

谢谢大家的帮助。你知道吗

我已经尝试过使用编码和解码，但没有成功，（我可能使用它们不正确）

# Open the pdf file in read binary mode.
fileObject = open(filePath, 'rb')

# Create a pdf reader .
pdfFileReader = PyPDF2.PdfFileReader(fileObject, strict=False)

# Get total pdf page number.
totalPageNumber = pdfFileReader.numPages

currentPageNumber = 0
text = ''

while(currentPageNumber < 3 ):

    # Get the specified pdf page object.
    pdfPage = pdfFileReader.getPage(currentPageNumber)

    # Get pdf page text.
    text = text + pdfPage.extractText()
    text.encode('utf-8',"ignore")


    # Process next page.
    currentPageNumber += 1

pdfText = text

下面是我得到的结果：

Fr@nceElectricPage 1/12Aspectsde la norme NF C15-100D•apr†s l•auteur, la norme NF 15-100 fixe la r‡glementation des installations ‡lectriques. Elle est r‡guli†rement remise … jour pour prendre

我想要的输出：

FranceElectricPage 1/12Aspectsde la norme NF C15-100D•après l'auteur, la norme NF 15-100 fixe la réglementation des installations électriques. Elle est réguliérement remise … jour pour prendre

Tags： the text in 编码 get pdf page la

0条回答

目前没有回答

如何用python对从pdf中提取的文本进行正确编码？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何用python对从pdf中提取的文本进行正确编码？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >