python glob或listdir创建文件，然后将文件从一个目录保存到另一个目录

import os import io from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage def convert(fname, pages=None): if not pages: pagenums = set() else: pagenums = set(pages) output = io.StringIO() manager = PDFResourceManager() converter = TextConverter(manager, output, laparams=LAParams()) interpreter = PDFPageInterpreter(manager, converter) infile = open(fname, 'rb') for page in PDFPage.get_pages(infile, pagenums): interpreter.process_page(page) infile.close() converter.close() text = output.getvalue() output.close return text print(text) def convertMultiple(pdfDir, txtDir): if pdfDir == "": pdfDir = os.getcwd() + "\\" #if no pdfDir passed in for pdf in os.listdir(pdfDir): #iterate through pdfs in pdf directory fileExtension = pdf.split(".")[-1] if fileExtension == "pdf": pdfFilename = pdfDir + pdf text = convert(pdfFilename) textFilename = txtDir + pdf.split(".")[0] + ".txt" textFile = open(textFilename, "w") textFile.write(text) pdfDir = r"C:/Users/Documents/pdf/" txtDir = r"C:/Users/Documents/txt/" convertMultiple(pdfDir, txtDir)

1条回答

网友

1楼 · 发布于 2024-05-21 12:17:53

正如您所建议的，glob在这里工作得很好。它甚至只能过滤.pdf个文件

在测试后取消对这3行的注释

import os, glob

def convert_multiple(pdf_dir, txt_dir):
    if pdf_dir == "": pdf_dir = os.getcwd() # If no pdf_dir passed in 
    for filepath in glob.iglob(f"{pdf_dir}/**/*.pdf", recursive=True):
        text = convert(filepath)
        root, _ = os.path.splitext(filepath) # Remove extension
        txt_filepath = os.path.join(txt_dir, os.path.relpath(root, pdf_dir)) + ".txt"
        txt_filepath = os.path.normpath(txt_filepath) # Not really necessary
        print(txt_filepath)
#        os.makedirs(os.path.dirname(txt_filepath), exist_ok=True)
#        with open(txt_filepath, "wt") as f:
#            f.write(text)


pdf_dir = r"C:/Users/Documents/pdf/"
txt_dir = r"C:/Users/Documents/txt/"
convert_multiple(pdf_dir, txt_dir)

要确定新.txt文件的文件路径，请使用^{}模块中的函数

os.path.relpath(filepath, pdf_dir)返回文件的文件路径，包括与pdf_dir相关的任何子目录

假设filepath是：

C:/Users/Documents/pdf/Setec Astronomy/employees.pdf

而且{}是

C:/Users/Documents/pdf/

它将返回Setec Astronomy/employees.pdf，然后可以将它与txt_dir一起传递到os.path.join()，为我们提供包含额外子目录的完整文件路径

您可以执行txt_filepath = filepath.replace(filepath, pdf_dir)，但必须确保所有相应的斜杠都在同一个方向上，并且没有额外的/缺少的前导/尾随斜杠

在打开新的.txt文件之前，需要创建所有子目录^调用{}以获取文件目录的文件路径，如果目录已经存在，则调用os.makedirs()并将其exist_ok参数设置为True，以抑制FileExistsError异常

在打开.txt文件时使用with语句，以避免显式调用.close()，特别是在出现任何异常的情况下

相关问题更多 >

编程相关推荐

热门问题

热门文章