我正在尝试编写一个Python3脚本来解析一个目录,该目录包含带有细菌物种名称和对应于每个物种的蛋白质序列的文件。这些文件被称为fasta文件,因为每个序列的标识符(aka header)都以“>;”开头。示例如下
File_1
>Mycoplasma_hypo
MAKEIILGIDLGTTNSVVAIIENQKPVVLENPNGKTTTPSVVAFKNNEEIVGDAAKRQ
LETNPEAIASIKRLMGTDKTVRANNNNERDYKPEEISAKILAYLKEYAEKKIGHKVTK
>Mycoplasma_galli
MSNNNGLIIGIDLGTTNSCVSVMEGAQKVVIENPEGKRTTPSVVSYKNGEIIVGDAAKRQ
MLTNPNTIVSIKRLMGTSKKVKINDKGVEKELTPEEVSASILSYLKDYAEKKTGQKISR
>Mycoplasma_agal
MAKEVIIGIDLGTTNSVVSIVDNGSPVVLENLNGKRTTPSVVSFKDGEIIVGDNAKNQ
IETNPDTVASIKRLMGTSKTVHVNNNNNKDYKPEEISAMILEHLKKYAEEKIGHKIEK
File_2
>Mycoplasma_hypo
MAKEIILGIDLGTTNSVVAIIENQKPVVLENPNGKTTTPSVVAFKNNEEIVGDAAKRQ
LETNPEAIASIKRLMGTDKTVRANNNNERDYKPEEISAKILAYLKEYAEKKIGHKVTK
>Mycoplasma_galli
MSNNNGLIIGIDLGTTNSCVSVMEGAQKVVIENPEGKRTTPSVVSYKNGEIIVGDAAKRQ
MLTNPNTIVSIKRLMGTSKKVKINDKGVEKELTPEEVSASILSYLKDYAEKKTGQKISR
>Mycoplasma_galli
MSNNNGLIIGIDLGTTNSCVSVMEGAQKVVISVVSYKNLKDYAEKKHHGEIIVGDAAKRQ
MLTNPNTIVSIKRLMGTSKKVKI-NDKGVEKELTPEEVSASILSYLKDYAEKKTGQKISR
>Mycoplasma_gen
MAKENNVIIGIDLGTTNSVRTTPSVVSFKDGEIIVGDNAKNQVSIVDNGSPVVLENLNGK
IETNPDTVASIKRLMGTSKTVHVNNNNNNKDYKPEEISAMILEHLKKYAEEKIGHKIEK
如您所见,文件\u 2包含重复项(>;鸡支原体)。我想跳过这个文件,并创建一个目录的所有其他文件包含唯一的细菌物种从一个给定的名单或其他文件,其中包含这些细菌物种的名称。此类查找文件的示例可以是:
查找\u文件
>Mycoplasma_galli
>Mycoplasma_hypo
>Mycoplasma_gen
>Mycoplasma_agal
相关问题 更多 >
编程相关推荐