import re
line = 'bla bla bla Tax_Id=9606 Gene_Symbol=OR4F16 OR4F28P OR4F29 OR4F2P OR4F3 DTR4F7P BPFR4F8P Gene_Accession=ENSG00000217874 bla bla bla'
regex = r"Gene_Symbol=(.*)Gene_Accession"
p = re.search(regex,line)
symbols = p.group(1).split()
for symbol in symbols:
print symbol
这项工作假设基因的符号和基因的加入总是在你的例子顺序。否则需要调整正则表达式
输出:
相关问题 更多 >
编程相关推荐