我正在运行BLAST,希望使用BLAST+6格式处理输出
例如,我想获取每个命中率的E值、查询覆盖率和标识,然后将它们插入一个等式,将所有三者加权为一个“分数”。然后我想把所有的分数放在一个表中,这样我就可以通过减少“分数”来对每个命中进行排序
我还想为数据库中的每个爆炸命中生成一个ORF,并将它们添加到表中相应的位置
有人能指出我可以搜索的任何资源/关键字来了解如何操作表格数据吗
例如:
blastn -query genes.fasta -subject genome.fasta -outfmt "6 qseqid pident qcovs evalue"
输出:
qseqid pident qcovs evalue
0 moaC 100.00 0.0 161.0
1 moaC 99.38 1.0 161.0
我想从每列中获取值,并将它们用作等式中的变量,然后在相应的行中打印该值。我将在BLAST中使用bash脚本或BioPython,因此我希望将数据操作作为其中的一部分
我不想解决这个例子,而是想看看是否有一个资源可以让我了解这个主题(到目前为止,我会使用电子表格程序来处理表格数据)
对于使用表格数据,我真的建议使用pandas
首先,您需要将输出转换为^{} ,这是一种非常适合存储以表格形式出现的数据的数据结构
对于这个示例,我使用了} 和^{}
tblastn
和示例文件^{首先,我们需要告诉
pandas
哪些列包含float
现在可以轻松地在此数据帧
df
上执行列操作。 定义分数函数并将结果添加为一个额外列:您可以通过这个
score
列轻松地对数据帧进行排序相关问题 更多 >
编程相关推荐