我有一个包含多个fasta序列的txt文件(我特别愿意将序列与基因名称一起解析)。请您帮助选择标题中具有特定名称的序列。谢谢
txt文件中的原始数据
lcl|NC_045512.2_gene_6 [gene=ORF6] [locus_tag=GU280_gp06] [db_xref=GeneID:43740572] [location=27202..27387] [gbkey=Gene] ATGTTTCATCTCGTTGACTTTCAGGTTACTATAGCAGAGATATTACTAATTATTATGAGGACTTTTAAAG
在python中解析后需要的数据
ORF6 ATGTTTCATCTCGTTGACTTTCAGGTTACTATAGCAGAGATATTACTAATTATTATGAGGACTTTTAAAG
我用过这个,我能得到
***from Bio import SeqIO
for record in SeqIO.parse("mytext.txt", 'fasta'):
print(record.name)
print(record.seq)***
得到的结果是这样的
lcl| NC_045512.2_基因_6 ATGTTTCATCTCGTTGACTTCAGGTTACTATATAGAGAGATATATATATATATATATATAGACTTTAAG
在这里,我在python正则表达式中尝试了它
在这里,我将基因和序列分为两个序列
输出将是
因为我没有学生物学,所以我仍然对你的问题感到困惑
这个答案纯粹是为了
souce_text == expected_text
参考文献
以下是不熟悉
biopython
的人的参考资料相关问题 更多 >
编程相关推荐