获取一个包含PDF文件的文件夹,将其转换为CSV,并将其保存在另一个同名但以CSV结尾的文件夹中

2024-10-02 20:40:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试将现有PDF文件夹复制并转换为csv,然后保存到其他文件位置

层次结构如下:

用户/../Test/PDF 用户/../Test/CSV

然后,我想获取所有CSV文件,并将文件名添加到第一列,然后将所有文件附加在一起,同时删除多余的空行,这些空行将由B列确定,B列中要么包含整数,要么删除

以下是我目前掌握的代码:

import os
from pathlib import Path
import csv
import tabula
import shutil

statis = []

pdf_folder = Path("/Users/bensorensen/Documents/Test/PDF/")
csv_folder = Path("/Users/bensorensen/Documents/Test/CSV/")

pdf_files = pdf_folder.glob('*.pdf')

for pdf in pdf_files:
    if item.endswith('pdf'):
        tabula.convert_into(df, output, output_format="csv", stream = True, pages='all')

shutil.move(pdf_folder,csv_folder)

任何帮助或额外的眼睛将不胜感激


Tags: 文件csvpath用户testimportpdffolder