将GenBank Flatfiles转换为FASTA

2条回答

网友

1楼 · 编辑于 2024-10-01 11:26:31

您需要Bio::SeqIO模块来读取或写出生物信息学数据。SeqIO HOWTO应该告诉你你需要知道的一切，但是here's a small read-a-GenBank-file script in Perl可以让你开始！在

网友

2楼 · 编辑于 2024-10-01 11:26:31

我给你准备了生物疗法的解决方案。我将首先假设你的genbank文件与一个基因组序列有关，然后我将提供一个不同的解决方案，假设它是一个基因序列。事实上，如果你知道你在处理哪一个问题，那会很有帮助的。在

基因组序列分析：

从文件中解析自定义genbank flatfile的方法是：

from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")

如果只需要原始序列，则：

^{pr2}$

现在，您可能需要此序列的名称，以便在生成.fasta之前给序列一个“>；header”。让我们看看genbank.gb文件的名称：

nameSequence = record.features[0].qualifiers

这将返回一个字典，其中包含由genbank文件的作者注释的整个序列的各种同义词

基因序列分析：

从文件中解析自定义genbank flatfile的方法是：

from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")

要获得基因的原始序列列表/所有基因的列表，则：

rawSequenceList = [gene.extract(record.seq.tostring()) for gene in record.features]

获取每个基因序列的名称列表（更准确地说是每个基因的同义词词典）

nameSequenceList = [gene.qualifiers for gene in record.features]