使用Entrez查找NCBI核苷酸GFF格式的注释数据

2024-09-28 22:20:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在研究NCBI核苷酸数据库中的细菌序列。如果我有一个登入,例如NC\u 002663,并且我需要GFF中的注释,我如何使用Entrez(最好是Biopython)轻松地做到这一点

如果我转到NCBIentry,我会看到指向程序集的链接。有没有一个简单的方法来编程访问它?Esummary服务不返回以下链接:

handle = Entrez.esummary(db='nucleotide', id='NC_002663')
record = Entrez.read(handle)

[DictElement({'Item': [], 'Id': '15601865', 'Caption': 'NC_002663', 'Title': 'Pasteurella multocida subsp. multocida str. Pm70, complete genome', 'Extra': 'gi|15601865|ref|NC_002663.1|[15601865]', 'Gi': IntegerElement(15601865, attributes={}), 'CreateDate': '2001/09/10', 'UpdateDate': '2018/01/11', 'Flags': IntegerElement(800, attributes={}), 'TaxId': IntegerElement(272843, attributes={}), 'Length': IntegerElement(2257487, attributes={}), 'Status': 'live', 'ReplacedBy': '', 'Comment': '  ', 'AccessionVersion': 'NC_002663.1'}, attributes={})]

我也许可以用“Title”搜索assemblydb,但似乎有更好的方法(没有那么多API调用)。 谢谢


Tags: 方法数据库title链接ncbi序列entrezattributes
1条回答
网友
1楼 · 发布于 2024-09-28 22:20:03

我不确定NCBI是否允许通过编程方式(通过efetch)下载GFF´ 功能)还没有。您可以通过这种方式访问fasta或genbank文件,但没有列出GFFs

你可以的

  • 从他们的网页手动下载(如果你只有几个文件要下载)
  • 使用Entrez.efetch函数获取genbank文件,并将其转换为GFF
  • 使用文件检索工具(如wget或其他)下载它

还有一个biomart包。它的R实现提到了函数getGFF,它可以查询多个数据库(尽管不是核苷酸数据库)。您可以检查它的python实现是否具有相同的可用功能,以及是否可以从中找到相同的文件

相关问题 更多 >