在多个“开始”和“结束”之间提取内容的Python代码

with open('./news_txt/A_2013.txt') as infile, open('./news_txt/A_2013_a.txt', 'w') as outfile: copy = False for line in infile: if line.strip() == "Dow Jones Newswires DJDN": copy = True continue elif line.strip() == "(END) Dow Jones Newswires": copy = False continue elif copy: outfile.write(line)

2条回答

网友

1楼 · 编辑于 2024-04-27 14:41:11

import os, os.path
folder_path = './news_txt'

def num_to_letters(n):
    rs=[]
    while n >0:
         n-=1
         n,r = divmod(n,26)
         rs.insert(0,chr(r+ord('a')))
    return ''.join(rs)

for file_name in os.listdir(folder_path):
    if not file_name.lower().endswith('.txt'):
        continue
    in_file_path = os.path.join(folder_path,file_name)
    
    
    with open(in_file_path,'r') as in_file:
        out_file = None
        num_out_files = 0
        for line in in_file:
            if line.strip() == "Dow Jones Newswires DJDN":
                if out_file is None:
                    num_out_files +=1
                    out_file_name = file_name[:-4]+'_'+num_to_letters(num_out_files)+'.txt'
                    out_file_path = os.path.join(folder_path,out_file_name)
                    out_file = open(out_file_path,'w')
                continue
            elif line.strip() == "(END) Dow Jones Newswires":
                if out_file is not None:
                    out_file.close()
                    out_file = None
                continue
            elif out_file is not None:
                out_file.write(line)
        if out_file is not None:
            out_file.close()

网友

2楼 · 编辑于 2024-04-27 14:41:11

帮个忙，改用正则表达式：

^Dow Jones Newswires DJDN.+?^\(END\) Dow Jones Newswires

使用修饰符m和s，请参见a demo on regex101.com

相关问题更多 >

编程相关推荐

热门问题

热门文章

在多个“开始”和“结束”之间提取内容的Python代码

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >