我绝对是python的新手。我在一个文本文件中有多篇新闻文章,有2000多个文本文件。每一篇新闻文章都以“道琼斯通讯社DJDN”开头,以“(完)道琼斯通讯社”结尾
有一组代码提取多个“开始”和“结束”之间的每个内容,如下所示:
with open('./news_txt/A_2013.txt') as infile, open('./news_txt/A_2013_a.txt', 'w') as outfile:
copy = False
for line in infile:
if line.strip() == "Dow Jones Newswires DJDN":
copy = True
continue
elif line.strip() == "(END) Dow Jones Newswires":
copy = False
continue
elif copy:
outfile.write(line)
但是,此代码仅适用于以下情况:1)只有一个txt文件;2) 所有提取的内容都存储在一个新的txt文件中
但我想要的是1)循环路径中的每个txt文件;2) 每个提取的内容都保存在一个新的txt文件中
例如,如果一个txt中有10条新闻,在运行代码后,我应该会得到10个新的txt文件来存储每条新闻
干杯
帮个忙,改用正则表达式:
使用修饰符
m
和s
,请参见a demo on regex101.com相关问题 更多 >
编程相关推荐