BCFF文件创建问题

2024-10-03 15:31:56 发布

您现在位置:Python中文网/ 问答频道 /正文

当使用GFF.write()创建文件时,我得到一个新行,其中“annotation remark”作为源,后跟序列区域的ASCII编码:

##gff-version 3
##sequence-region NC_011594.1 1 16779
NC_011594.1 annotation  remark  1   16779   .   .   .   gff-version=3;sequence-region=%28%27NC_011594.1%27%2C 0%2C 16971%29,%28%27NC_042493.1%27%2C 0%2C 132544852%29, (continues on and on)
NC_011594.1 RefSeq  gene    1   1531    .   +   .   Dbxref=GeneID:7055888;ID=gene-COX1;Name=COX1;gbkey=Gene;gene=COX1;gene_biotype=protein_coding

你知道它为什么会在这里,它是用来干什么的,我怎样才能避免它吗?我担心在第三方软件中使用它时可能会出现问题

我只导入了bcbio gff包,但我相信它是Biopython的一部分,链接:https://biopython.org/wiki/GFF_Parsing


Tags: 文件区域onversion序列annotationregionwrite
1条回答
网友
1楼 · 发布于 2024-10-03 15:31:56

对于你的第一个问题——“它为什么在那里?”

  • 我只是假设,默认情况下,包作者希望导出尽可能多的信息

关于你的下一个问题——“我怎样才能避免它?”

  • 不幸的是,没有关闭开关。对我来说,解决方案是从导出的序列中删除任何注释。(即,在调用GFF.write()之前,将annotations属性设置为空字典

例如:

from Bio import SeqIO
from BCBio import GFF

g = SeqIO.read('NC_003888.3.gb','gb')

g.annotations = {}

with open('t2.gff', 'w') as f:
    GFF.write([g], f)

输出文件头-否# annotation remark

head t2.gff 
##gff-version 3
##sequence-region NC_003888.3 1 8667507
NC_003888.3 feature source  1   8667507 ... removed for clarity ....

相关问题 更多 >