从FASTA-fi中提取基因定位

2024-10-02 16:26:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图用BioPython从fasta文件中提取基因位置,但是函数location不起作用。我想避免使用regex,因为这个函数必须处理不同的文件,而且所有文件的头都略有不同。你知道吗

标题如下所示: >;X型dna:染色体:GRCh38:X:111410060:111411807:-1

我希望输出为: 开始=111410060 结束=111411807


Tags: 文件函数gt标题基因locationregexfasta
1条回答
网友
1楼 · 发布于 2024-10-02 16:26:06

如果不同fasta文件的头文件总是以'结尾。。。chr:开始:末端:钢绞线,不同的部分用“分隔:”您可以尝试按.split(":")分割.description并选择结果列表的倒数第二位和倒数第二位。你知道吗

下面是您的示例标题:

from Bio import SeqIO
path = 'fasta_test.fasta'
records = SeqIO.parse(open(path), 'fasta')
record = next(records)
parts = record.description.split(":")
print('start =', parts[-3], 'end =', parts[-2])

相关问题 更多 >