我刚开始用python编程。我完全被下面的问题所困扰。 我有一个包含多个蛋白质序列的fasta文件。 在所有的fasta文件中,不同的蛋白质都以“>;”开头。我需要这些蛋白质放在一个文件里完全正确。所以我不能把文件分开。但我想过滤掉所有不是蛋白质序列的东西。在
所以如果我有这样的文件(它是一个巨大文件的一部分):
>gi|636665534|ref|YP_009028572.1| Asp [Human immunodeficiency virus 1]
MPQTVSCNRCCCASIALSKLFCC
CTIPDNNCLACTVSVIEAAPI
>gi|28872817|ref|NP_057852.2| Vpr [Human immunodeficiency virus 1]
MEQAPEDQGPQ
REPHNEWTLELLEELKNEAVR
HFPRIWLHG
我只想像这样把序列粘在一起:
MPQTVSCNRCCCASIALSKLFCCCTIPDNNCLACTVSVIEAAPIMEQAPEDQGPQREPHNEWTLELLEELKNEAVRHFPRIWLHG
我只能过滤出第一个,而不能过滤其他的。或者我只能读第一个序列。我需要为学校阅读这些fasta文件,并用matplotlib绘制图表。只是我一直在读fasta文件那部分。在
我想我可以做一个这样的代码
^{pr2}$但我注意到在两个蛋白质序列之间。所以那没用。。。在
就像我说的,我刚开始,所以如果你能用最简单(不一定是最好的)的方式回答。所以在like start python语言中:)
相关问题 更多 >
编程相关推荐