我有一个包含以下内容的文本文件:
0:00 txt txt e-mail1_to_extract txt_to_extract1 txt txt /data
0:00 txt txt e-mail2_to_extract txt_to_extract2 txt txt /data
0:00 txt txt txt e-mail3_to_extract txt_to_extract3 txt txt /var
0:00 txt txt txt txt e-mail4_to_extract txt_to_extract4 txt txt /var
0:00 txt txt e-mail5_to_extract txt_to_extract5 txt txt /data
首先,我想提取“0:00”和“/data”或“/var”之间的所有这些行。第二,我想处理这些数据,这样我只能提取其中的两部分。这个已经提取的范围中包含的文本没有标准化,因此我不能使用类似“startwith”/“endwith”的内容,但是,整个文本是连接在一起的(就像一个单词),并且它的位置总是在电子邮件部分之后重复。有没有办法专门映射该部分并提取电子邮件+下一个字符串
Txt=我不想提取的额外文本
我已经尝试从下面的代码开始,但没有得到任何结果:
with open('content.txt') as infile, open('extraction.txt', 'w') as outfile:
copy = False
for line in infile:
if line.strip() == "0:00":
copy = True
continue
elif line.strip() == "/":
copy = False
continue
elif copy:
outfile.write(line)
期望输出:
e-mail1_to_extract txt_to_extract1
e-mail2_to_extract txt_to_extract2
e-mail3_to_extract txt_to_extract3
e-mail4_to_extract txt_to_extract4
e-mail5_to_extract txt_to_extract5
谢谢大家!
我使用了您提供的格式的示例文件-
我使用了以下代码(用于确定电子邮件的函数,请相应地更改regex)——
我得到以下输出-
相关问题 更多 >
编程相关推荐