我试图使用csv、os和PyPDF2包编写代码,从目录中的大量pdf文件中提取文本,然后将数据放入csv中。下面的代码说明了我的工作(它运行但不提供输出):
import PyPDF2
import csv
import os
for filename in os.listdir(os.getcwd()):
if filename endswith('.pdf'):
pdfFileobject = open(filename, 'rb')
pdfUnderstander = PyPDF2.PdfFileReader(pdfFileObject)
numberpages = pdfUnderstander.getNumPages()
increment = 0
text = ""
while increment < numberpages:
pdfPage = pdfUnderstander.getPage(increment)
increment += 1
text += pdfPage.extractText()
print(text)
我还没有完全得到的一部分,因为上面的部分工作失败,但想知道如何存储以及一些建议。你知道吗
我猜你在提取文件名时出错了。你知道吗
您正在犯的错误:-变量名。你知道吗
请尝试以下代码:
相关问题 更多 >
编程相关推荐