我正在创建一个python管道来处理非常大的二进制文件(即50+GB)。它们是BAM文件,一种用于表示基因组的格式。我的脚本目前被两个非常昂贵的子进程调用所限制
这两个命令占用了管道每次运行80%的计算时间,因此我需要找出一种方法来加快这个过程。他们从同一个文件中读取数据。我想知道使这项工作更有效率的最佳途径。基本上,是否有一种特别的并发风格最适合工作?还是有其他有趣的方法
谢谢
命令:
subprocess.call('samtools视图-b-f 68{}>;{}_unmapped\u one.bam'.格式(self.file\u路径,self.file\u前缀),shell=True
subprocess.call('samtools视图-b-f 132{}>;{}_unmapped\u two.bam'.格式(self.file\u路径,self.file\u前缀),shell=True
对于您所描述的内容和您共享的代码,我可以想出几种提高性能的方法
相关问题 更多 >
编程相关推荐