使用索引文件加速基因组学的工具包。
indextools的Python项目详细描述
索引工具
常见索引格式,如BAM索引(BAI)和Tabix(TBI),包含沿基因组的NGS读取的密度的粗粒度信息,其可用于基于读取深度的度量的快速近似。indextools是一个基于索引文件的非常快速的ngs分析工具。
安装
pip install indextools
命令
分区
partition
命令处理BAM索引文件,并生成一个BED格式的文件,该文件包含的间隔在“volume”中大致相等。此分区BAM文件可用于更有效地并行化辅助分析工具(而不是通过染色体或统一窗口并行化)。
# Generate a BED with 10 partitions indextools partition -I tests/data/small.bam.bai \ -z tests/data/contig_sizes.txt \ -n 10\ -o small.partitions.bed
限制
indextools正在积极开发中。请参阅issue tracker和road map以查看即将推出的功能。
一些最常见的请求功能尚未提供:
- 支持cram文件和cram索引(.crai)。
- 通过uri支持非本地文件。
开发
我们欢迎社会各界的贡献。详情请参阅developer README。
技术细节
体积
在生物信息学背景下,“大小”这个词被重载了。它用来指基因组区域的线性大小(bp数)、磁盘大小(字节数)或特征数(例如读取计数)。索引工具估计在给定基因组区域中存储特征的未压缩数据所需的字节数。为了避免与“大小”的任何含义混淆或混淆,我们选择使用“体积”一词来指给定基因组区域的近似大小(以字节为单位)。能够解释一个给定体积的含义几乎从来都不重要或有用,也不能有意义地将体积转换为其他单位;体积主要用作一种相对的度量。因此,当提到任何特定体积时,我们使用组成单位“v”。
许可证
indextools版权所有(c)2019 dnanexus,inc.;并在MIT License下提供。
indextools是not官方支持的dnanexus产品。所有错误报告和功能请求都应该通过issue tracker处理。请不要联系dnanexus支持部门了解此软件。
致谢
indextools最初的灵感来自@brentp的indexcov。