循环遍历目录中的文件以提取PDF中的数据并将其放置在Python的CSV中的问题

import PyPDF2 import csv import os for filename in os.listdir(os.getcwd()): if filename endswith('.pdf'): pdfFileobject = open(filename, 'rb') pdfUnderstander = PyPDF2.PdfFileReader(pdfFileObject) numberpages = pdfUnderstander.getNumPages() increment = 0 text = "" while increment < numberpages: pdfPage = pdfUnderstander.getPage(increment) increment += 1 text += pdfPage.extractText() print(text)

1条回答

网友

1楼 · 发布于 2024-10-01 07:26:26

我猜你在提取文件名时出错了。你知道吗

您正在犯的错误：-变量名。你知道吗

**pdfFileobject** = open(filename, 'rb')
pdfUnderstander = PyPDF2.PdfFileReader(**pdfFileObject**)

请尝试以下代码：

path = r'Dir contains PDFs'
for filename in os.listdir(path):
    if filename.split(".")[-1] == 'pdf':
        print(filename)
        pdfFileObject = open(os.path.join(path, filename), 'rb')
        pdfUnderstander = PyPDF2.PdfFileReader(pdfFileObject)
        numberpages = pdfUnderstander.getNumPages()
        increment = 0
        text = ""
        while increment < numberpages:
            pdfPage = pdfUnderstander.getPage(increment)
            increment += 1
            text += pdfPage.extractText()
        print(text)

相关问题更多 >

编程相关推荐

热门问题

热门文章

循环遍历目录中的文件以提取PDF中的数据并将其放置在Python的CSV中的问题

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >