我正试图用NCBIWWW.biopython运行blastn。
我正在对给定的示例文件使用qblast函数。
我定义了一些方法,当我的fasta包含足够长的序列时,一切都像一个符咒。唯一失败的情况是当我需要爆炸来自Illumina测序的读数太短时。所以我想说这可能是因为在提交工作时没有自动重新定义爆破参数。在
我尽我所能接近爆炸短条件(见表C2从here)没有任何成功。在
看来我不能输入正确的参数。在
我想我越接近工作的情况是:
result_handle = NCBIWWW.qblast("blastn", "nr",
fastaSequence,
word_size=7,
gapcosts='5 2',
nucl_reward=1,
nucl_penalty='-3',
expect=1000)
谢谢你给我的建议。在
我的fasta read示例如下:
^{pr2}$我得到的错误是:
>ValueError: Error message from NCBI: Message ID#24 Error: Failed to read the Blast query: Protein FASTA provided for nucleotide sequence
当我看一下this page时,我的问题似乎是关于如何确定阈值,但显然,到目前为止,我并没有设法使它起作用。在
谢谢你的帮助。在
此代码适用于我(Biopython 1.64):
^{1}$也许你通过了一个错误的快速顺序。Biopython没有从SeqRecords(或任何东西)到普通FASTA的任何转换。您必须提供如上所示的查询。在
Blast确定序列是核苷酸还是蛋白质,读取前几个字符。如果它们在“ACGT”中高于阈值,那就是核苷酸,否则就是蛋白质。因此,你的序列处于100%的“ACGT”阈值,不可能被解释为蛋白质。在
有一次我在爆破肽方面遇到了问题,这似乎是一个正确选择参数的问题。我花了很长时间才弄清楚它们到底应该是什么(各种网站上不一致且稀少的数据,包括这方面NCBI文档中相当复杂的数据)。我知道你对爆破核苷酸序列感兴趣,但你可能会找到你的解决方案,同时看看下面的代码。尤其要注意参数}。对我来说,他们似乎是至关重要的。在
^{1}$filter
、composition_based_statistics
、word_size
和{相关问题 更多 >
编程相关推荐