从读取密度估计基因组特征的丰度

rnacounter的Python项目详细描述


欢迎!

rnaccounter估算基因及其不同转录本的丰度 从读取对齐。外显子和内含子也可以量化。

它在注释的基因组特征中提供了快速的读取计数,并且简单, 从rna序列数据中量化亚型的有效方法。 使用的方法在[<;ref>;]中有说明。 对于来自鼠标的1GB BAM文件,典型的运行时间预计不到2分钟 rna测序,随bam大小线性增加。

对于所有这些任务,它只需要一个来自基因组上读取映射的BAM文件, 以及一个描述外显子结构的gtf/gff文件 例如由Ensembl或Genrep提供的。

它不是用来作为一个库,而是通过它的命令行工具“rnaccounter”

代码项目托管在github(https://github.com/delafont/rnacounter)中,获得gpl-2许可。

用法:

请参阅“rnaccounter–help”和教程 http://bbcf.epfl.ch/bbcflib/tutorial_rnacounter.html, 也可以在doc/文件夹中找到。

最小示例:

rnacounter test.bam test.gtf

安装:

首先确保安装了numpy,然后安装rnaccounter。 使用简易安装:

sudo easy_install numpy
sudo easy_install rnacounter

或者更好的是,使用pip:

sudo pip install numpy
sudo pip install rnacounter

它作为标准Python库安装,但包含可执行文件 把它放在你的钱路的某个地方将添加依赖项 自动

检查它是否与测试一起工作命令:

rnacounter test

它应该显示类似的内容:

ID  Count   RPKM    Chrom   Start   End     Strand  GeneName        Type    Sense   Synonym
ENSMUSG00000038271  0.0     0.0     chr6    125095258       125111800       1       Iffo1   Gene    .       .
ENSMUSG00000057666  3956.87179487   434612.223694   chr6    125111870       125116485       -1      Gapdh   Gene    .       .
ENSMUSG00000038252  0.0     0.0     chr6    125118026       125141613       -1      Ncapd2  Gene    .       .

要使用pip卸载:

sudo pip uninstall rnacounter

代码与Python2.7和Python3完全兼容。

从源构建:

这允许在重建之前修改Cython源代码(rnaccounter.pyx)

https://github.com/delafont/rnacounter克隆或下载存储库。

您需要安装cython(pip install cython)。

从rnaccounter.pyx所在位置(rnaccounter/rnaccounter/)运行:

sudo python setup.py build_ext

它将重新编译以创建rnaccounter.c并构建它。 然后将可执行文件(rnaccounter/bin/rnaccounter)添加到$PATH, 或者从包根目录(rnaccounter/)安装:

sudo python setup.py install

依赖关系:

测试使用以下库版本运行,但可能使用早期版本。

  • setuptools 7.0+(安装)
  • pysam 0.7.5+(samtools包装器)
  • numpy 1.6.2+(高效数字数组)
  • scipy 0.9.0+(nnls算法)
  • docopt 0.6.1+(命令行参数解析)
  • cython 0.20+(将python代码转换为c)

测试:

测试testfiles/文件夹中的文件: -gapdhko.bam:在mm9上对齐,仅覆盖gapdh。 -mm9_3genes_renamed.gtf:用gapdh提取的ensembl-gtf,其前后的基因。 -mm9_gapdh_renamed.gtf:仅用gapdh提取ensembl gtf。

示例:

rnacounter testfiles/gapdhKO.bam testfiles/mm9_3genes_renamed.gtf

(相当于test命令的作用):

rnacounter test

BAM包含4041个完全对齐Gapdh(ENSMUSG00000057666)外显子的读操作, 主要在ENSMUSE00000487077上,也有ENSMUSE00000751942和ENSMUSE00000886744。 其他外显子上什么都没有,这使得它成为条件恶劣的输入数据的一个很好的例子

最小二乘法返回以下文本的计数: 恩斯穆斯特00000117757,恩斯穆斯特00000118875,恩斯穆斯特00000147954 在ENSMUST00000073605,ENSMUST00000144205,ENSMUST00000144588上没有

故障排除:

以下未列出的任何错误报告、使用问题或功能请求均可发送至 julien.delafontaine@epfl.chwebmaster.bbcf@epfl.ch

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何将cassandra中的行数据转换为与列相关的嵌套json   java如何使用jcr XPath在jcr:content/@jcr:data中搜索?   java在使用openCV进行安卓开发时如何利用手机的广角镜头   java解析扩展了接口,结束了一个潜在的无限循环   位置服务的@Override方法中存在java Android应用程序错误   java本地线程的用途和需求是什么   具有左右子访问的java节点树遍历   java验证JsonWebToken签名   JUL日志处理程序中的java日志记录   嵌入式Java读取给定时间段的串行数据。   java有没有办法从多个URL获取多个图像?   java线程通过等待intent阻止自己发送intent   java Spring MVC解析多部分内容请求   java JPA/Hibernate静态元模型属性未填充NullPointerException   java格式错误的字符(需要引号,得到I)~正在处理   java为什么PrintWriter对象抛出FileNotFoundException?   java Neo4j未正确保存标签   java IE不加载图像