在一个变量中读取Python中的多个docx文件

2024-06-14 08:34:49 发布

您现在位置:Python中文网/ 问答频道 /正文

在我的一个文件夹中,总共有5个word(.docx)文件,我想在dataframe中读取和存储这些文件的内容

我能够在Python中使用以下语法读取一个文件。谁能帮我如何读取存储在一个文件夹中的多个docx文件并将结果保存在dataframe中

我也不确定在特定的文件夹中可用的docx文件的名称。在

import docx2txt

# extract text
text = docx2txt.process("file.docx")

我可以得到结果使用下面的脚本

^{pr2}$

Tags: 文件textimport脚本文件夹名称内容dataframe
2条回答

这应该是有效的:

import os

directory = '.'
extension = '.docx'
text = ''

for a_file in os.listdir(directory):
    if a_file.endswith(extension):
        text = docx2txt.process(a_file)

使用glob获取文件夹中的所有文件,然后使用for loop并将输出附加到变量中。在

import glob
text = ''
for file in glob.glob('folder_name/*.docx'):
    text += docx2txt.process(file)

相关问题 更多 >