使用Python将所有文本文件和其所包含的所有.zip文件中的内容合并到一个文本文件中

2024-09-28 01:25:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图写一个程序,将读取文件夹中的所有文件,并输出到一个单一的文件中的所有内容。文件以.gz扩展名压缩。我设法读取了一个文件,但不是全部内容,也不是其余的文件。这是我的密码:

import glob, gzip, re
import pickle

filed = open('Logs.txt', 'w')


logfilenames = glob.glob('*.gz')




logformat = re.compile(r'^\S+ \S+ \S+ \[([\w:/]+\s[+\-]\d{4})\] "(\S+) (\S+) .*" (\d+) (\d+) "([^"]*)" "[^"]*"')
with gzip.GzipFile(logfilenames[0],'r') as f:
    for i in glob.glob('*.gz'):
        txtline = f.readline()
        parsedline = logformat.match(txtline)
        print "time={t} size={s} url={u}".format(t=parsedline.group(1), s=parsedline.group(5), u=parsedline.group(3))

        pickle.dump(["time={t} size={s} url={u}".format(t=parsedline.group(1), s=parsedline.group(5), u=parsedline.group(3))],filed)

filed.close()

Tags: 文件importresizetimegrouppickleglob
2条回答

另存为xD.sh公司你知道吗

mkdir dir
mv $file dir
cd dir
tar -zxvf $file
for file in `ls -w 1 | grep -v ".gz"`; do
cat $file >> joint-file
done
mv joint-file ../
rm -rf dir

然后用python中的

import os
cmd = './xd.sh'
os.system(cmd)

=)

尝试以下操作(未触及正则表达式):

import glob, gzip, re
import cPickle

logformat = re.compile(r'^\S+ \S+ \S+ \[([\w:/]+\s[+\-]\d{4})\] "(\S+) (\S+) .*" (\d+) (\d+) "([^"]*)" "[^"]*"')

with open('Logs.txt', 'w') as f_out:
    for i in glob.glob('*.gz'):
        with gzip.GzipFile(i,'r') as f_in:
            for txtline in f_in:
                parsedline = logformat.match(txtline)
                if parsedline:
                    f_out.write("time={t} size={s} url={u}".format(t=parsedline.group(1), s=parsedline.group(5), u=parsedline.group(3)))

相关问题 更多 >

    热门问题