PyPDF2无法正确提取文本

2024-09-30 10:28:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我的代码可以在PDF文件中读取,但无法使用PyPDF2提取文本。它以前曾处理过其他PDF文件。为什么文本以这种编码形式出现,我如何修复它

代码:

with open(pdf_file, 'rb') as f:
    reader = pypdf.PdfFileReader(f)
    print(reader.getPage(1).extractText()) # get table of contents

以下是输出:

“$!$”$()!“+!+”+#&-\N10月12日n!!3月3日(01&;23及425615667\n& amp amp amp amp amp;15&;23及amp amp amp amp;35月5月5日及amp amp;35月5月5日及10月23及amp amp amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;;\n(/!!0/\n!”$%&;&;&;&;&;&;&;&;%5%&;37%1*(\n+18-&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&10月10日,:171+\n(!!!/)10月10日,,00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 10 10 10 10 10 10 10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0-357(\n23%)(\n&;%-&;8%7)(\nC13-“\n(9?!B0.\n!3%-&;357)(\n&;%&;8%7)(\nC13-”\n(9D!B0/\n!3%&;357)(\n&;%&;8%7)(\nC13-“\n3%及8%及8%7.7%及8%7.7(\nC13-““\n(/)n(((/)B((/)B(/)0?\n!n!n!n及及及及1<0 0 0 0 0 0?)及1<7-166(3)n(\n!n)B((/)n(/)n(((/)0 0??)n)n及1)及1<<7-166(7-166)7-166????????);;;;;;;;;)1(((\n(\n)7)7-1)7-1)7-1)7)7-7-166)7)7-166(7)7-166(3((((\n(((\n(\n(\n及1)及1)7)7)7)7)7)7)7-7)7)7)7)7-166(((这句话的意思是:“\n(=D!?!+367#)”(“373\n(E!!9!”373(3&F8%+%7%1*+\n(E!!90!\n!”373\n(3&F8%+%7%1*)(\n2(7:1)+\n(E!!90.\n!”373(\n+71-3#3.3& amp;3.7%1.++\n(E)n(E)n(E)n(E)n(E)n(E)n(E)n(E)n(E)3!3)7%1.1!7%1<3 3)1.1)n(3)3)3(7)7%1<1.1)1<1.1<1.1<1.1<3%1<1.1他们>36(-3(-3(-3)1.6(([3)1)1)1)1.1.1.1)1)1<36(-3(-3)6(((([5+18+18-+18-+18-及及及18-&;3)及(3)3)和37)1)1)1)1)1)1.1.1.1.1.1)1)1)1<1<1<1<1<1<1)1)1<1<1<1<1(21)(EB!=0.\n!!“#$\n%&;()(&;!+,”(&;-+(&;\n./#0*&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&;&+(n&;%74(\n“--1\n-1\n)1\n(E?!<<<+%n(<<<<<<<<<<<<<<<<<++<<<<<<<0.5%以下以下以下以下以下<<<<<0.5.5<0<0.3,<<<<<<<<<<0.5.5.5>


Tags: 文件代码文本编码pdfwithopenb0

热门问题