如何在python中读取fasta文件(多个记录)(不允许使用biopython

2024-09-28 22:21:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我刚开始用python编程。我完全被下面的问题所困扰。 我有一个包含多个蛋白质序列的fasta文件。 在所有的fasta文件中,不同的蛋白质都以“>;”开头。我需要这些蛋白质放在一个文件里完全正确。所以我不能把文件分开。但我想过滤掉所有不是蛋白质序列的东西。在

所以如果我有这样的文件(它是一个巨大文件的一部分):

>gi|636665534|ref|YP_009028572.1| Asp [Human immunodeficiency virus 1]
MPQTVSCNRCCCASIALSKLFCC
CTIPDNNCLACTVSVIEAAPI
>gi|28872817|ref|NP_057852.2| Vpr [Human immunodeficiency virus 1]
MEQAPEDQGPQ
REPHNEWTLELLEELKNEAVR
HFPRIWLHG

我只想像这样把序列粘在一起:

MPQTVSCNRCCCASIALSKLFCCCTIPDNNCLACTVSVIEAAPIMEQAPEDQGPQREPHNEWTLELLEELKNEAVRHFPRIWLHG

我只能过滤出第一个,而不能过滤其他的。或者我只能读第一个序列。我需要为学校阅读这些fasta文件,并用matplotlib绘制图表。只是我一直在读fasta文件那部分。在

我想我可以做一个这样的代码

^{pr2}$

但我注意到在两个蛋白质序列之间。所以那没用。。。在

就像我说的,我刚开始,所以如果你能用最简单(不一定是最好的)的方式回答。所以在like start python语言中:)


Tags: 文件gtref编程序列蛋白质fastaasp