从读取密度估计基因组特征的丰度
rnacounter的Python项目详细描述
欢迎!
rnaccounter估算基因及其不同转录本的丰度 从读取对齐。外显子和内含子也可以量化。
它在注释的基因组特征中提供了快速的读取计数,并且简单, 从rna序列数据中量化亚型的有效方法。 使用的方法在[<;ref>;]中有说明。 对于来自鼠标的1GB BAM文件,典型的运行时间预计不到2分钟 rna测序,随bam大小线性增加。
对于所有这些任务,它只需要一个来自基因组上读取映射的BAM文件, 以及一个描述外显子结构的gtf/gff文件 例如由Ensembl或Genrep提供的。
它不是用来作为一个库,而是通过它的命令行工具“rnaccounter”
代码项目托管在github(https://github.com/delafont/rnacounter)中,获得gpl-2许可。
用法:
请参阅“rnaccounter–help”和教程 http://bbcf.epfl.ch/bbcflib/tutorial_rnacounter.html, 也可以在doc/文件夹中找到。
最小示例:
rnacounter test.bam test.gtf
安装:
首先确保安装了numpy,然后安装rnaccounter。 使用简易安装:
sudo easy_install numpy sudo easy_install rnacounter
或者更好的是,使用pip:
sudo pip install numpy sudo pip install rnacounter
它作为标准Python库安装,但包含可执行文件 把它放在你的钱路的某个地方将添加依赖项 自动
检查它是否与测试一起工作命令:
rnacounter test
它应该显示类似的内容:
ID Count RPKM Chrom Start End Strand GeneName Type Sense Synonym ENSMUSG00000038271 0.0 0.0 chr6 125095258 125111800 1 Iffo1 Gene . . ENSMUSG00000057666 3956.87179487 434612.223694 chr6 125111870 125116485 -1 Gapdh Gene . . ENSMUSG00000038252 0.0 0.0 chr6 125118026 125141613 -1 Ncapd2 Gene . .
要使用pip卸载:
sudo pip uninstall rnacounter
代码与Python2.7和Python3完全兼容。
从源构建:
这允许在重建之前修改Cython源代码(rnaccounter.pyx)
从https://github.com/delafont/rnacounter克隆或下载存储库。
您需要安装cython(pip install cython)。
从rnaccounter.pyx所在位置(rnaccounter/rnaccounter/)运行:
sudo python setup.py build_ext
它将重新编译以创建rnaccounter.c并构建它。 然后将可执行文件(rnaccounter/bin/rnaccounter)添加到$PATH, 或者从包根目录(rnaccounter/)安装:
sudo python setup.py install
依赖关系:
测试使用以下库版本运行,但可能使用早期版本。
- setuptools 7.0+(安装)
- pysam 0.7.5+(samtools包装器)
- numpy 1.6.2+(高效数字数组)
- scipy 0.9.0+(nnls算法)
- docopt 0.6.1+(命令行参数解析)
- cython 0.20+(将python代码转换为c)
测试:
测试testfiles/文件夹中的文件: -gapdhko.bam:在mm9上对齐,仅覆盖gapdh。 -mm9_3genes_renamed.gtf:用gapdh提取的ensembl-gtf,其前后的基因。 -mm9_gapdh_renamed.gtf:仅用gapdh提取ensembl gtf。
示例:
rnacounter testfiles/gapdhKO.bam testfiles/mm9_3genes_renamed.gtf
(相当于test命令的作用):
rnacounter test
BAM包含4041个完全对齐Gapdh(ENSMUSG00000057666)外显子的读操作, 主要在ENSMUSE00000487077上,也有ENSMUSE00000751942和ENSMUSE00000886744。 其他外显子上什么都没有,这使得它成为条件恶劣的输入数据的一个很好的例子
最小二乘法返回以下文本的计数: 恩斯穆斯特00000117757,恩斯穆斯特00000118875,恩斯穆斯特00000147954 在ENSMUST00000073605,ENSMUST00000144205,ENSMUST00000144588上没有
故障排除:
以下未列出的任何错误报告、使用问题或功能请求均可发送至 julien.delafontaine@epfl.ch或webmaster.bbcf@epfl.ch