计数器rna序列窗口是一个计算和可视化rna序列实验覆盖率的软件包。
craw的Python项目详细描述
计数器rnaseq窗口
使用CRAW有三种方法: 使用pip 如果使用virtualenv,请不要忘记配置matplotlib后端 在MacOS上,从http://python.org上的映像安装python>;3。
然后使用pip安装craw
啊!
craw将安装在 craw文档(html和pdf)位于/library/framework/python.framework/version/3.6/share/craw/ 克隆项目并使用setup.py安装
啊!
这个版本来自于一些单元和功能测试。
测试是否一切正常。 此步骤仅可从源(存储库的a克隆或atarball版本)获得。
如果从pypi安装craw,则无法执行测试(pip install craw) Docker图片可用。这两个脚本可以通过子命令 注:
但是,交互式htmp输出不可用。
所以必须指定--out选项 奇点图像可用。这两个脚本可以通过子命令 有详细的文档 craw_coverage需要一个名为bam file的对齐读取文件。
BAM文件是二进制对齐/映射格式(.bam)的短DNA序列读取对齐。
craw_coverage还需要相应的索引文件(bai)。索引文件必须位于BAM文件旁边
使用相同的名称而不是具有.bam扩展名,它以.bai扩展名结尾。
如果没有索引文件,则必须创建它。 要索引bam文件,需要samtools。命令行是 有关详细说明,请参见http://www.htslib.org/doc/" rel="nofollow">http://www.htslib.org/doc/<
安装
要求
从包装
pip安装craw
Mac操作系统注意事项
/library/framework/python.framework/version/3.6/
因此,如果您想直接使用craw覆盖和craw htmp,只需创建一个像这样的符号linc从存储库
测试我的安装
使用Docker图像
coverage
或htmp
访问。
例如使用最新版本的craw htmp:使用奇点图像
coverage
或htmp
访问。
例如使用最新版本的craw htmp:注:
与Docker图像不同的是,在奇点图像中,交互输出是可用的。
快速启动
输入/输出
CRAW U覆盖范围
输入
BAM文件
samtools index file.bam
假发文件
craw_coverage还可以从wig文件计算覆盖率 参见https://wiki.nci.nih.gov/display/tcga/wiggle+format+specification和 http://genome.ucsc.edu/goldenpath/help/wiggle.html。 格式规范。与这些规格进行比较 在两根钢绞线上安装Craw支撑罩。阳性覆盖率得分 在正链上,而负链在反链上。
track type=wiggle_0 name="demo" color=96,144,246 altColor=96,144,246 autoScale=on graphType=bar
variableStep chrom=chrI span=1
72 12.0000
73 35.0000
74 70.0000
75 127.0000
...
72 -88.0000
73 -42.0000
74 -12.0000
75 -1.0000
在上面的例子中,位置72、73、74、75的染色体i的覆盖率 前束为12、35、70、127,后束为88、42、12、1。
--bam和--wig选项是互斥的,但其中一个选项是必需的。
注释文件
注释文件是一个tsv
文件。这意味着它是一个文本文件,其值由表格(而不是空格)分隔。
文件的第一行必须是列的名称
另一行是数值。每一行代表一行。
name gene chromosome strand Position
YEL072W RMD6 chrV + 14415
YEL071W DLD3 chrV + 17845
YEL070W DSF1 chrV + 21097
所有以""字符开头的行都将被忽略。
pip3 install craw
0
必选列
注释文件中有3个强制列。
具有固定名称的列
两个具有固定名称:
- 链指示感兴趣区域位于哪个链上。 此列的授权值为+/-,1/-1或for/rev.
- 染色体位于感兴趣区域的染色体名称。
具有变量名的列
除了这两列之外,定义引用位置的列也是必需的,但是 列可以由用户指定。如果不是craw_coverage,则使用列名"position"。
如果我们要计算可变窗口大小的覆盖率,则必须有两个额外的列,其名称必须由用户通过以下选项指定:
--开始列定义窗口的开始(此位置包含在窗口中)
--停止列定义窗口的结尾(此位置包含在窗口中)
名称基因型染色体链注释 yel072w rmd6基因chrv 1 13720 14415 1 14745 13569 yel071w-dld3基因chrv 1 16355 17845 1 17881 16177 yel070w dsf1基因chrv 1 19589 21097 1 21197 19539
craw_coverage--bam file.bam--annot annot.txt--ref col annotation_start--start col annotation_start--stop col annotation_end
参考位置必须在开始和结束之间。 授权值是正整数。
参考位置可用于定义参考和窗口的开始或结束。
pip3 install craw
1
不需要所有其他列,但将按覆盖率文件中的方式报告。 >
输出
覆盖范围文件
这是一个tsv
文件,注释文件中的所有列加上以位置为中心的覆盖位置的结果
在参考位置为每一行定义。例如
pip3 install craw
2
在上面的命令行中,列"0"对应于注释开始位置,列"1"对应于注释开始+1 一直持续到"2000"(这里我们只显示覆盖范围的前3列)。
pip3 install craw
3
以"35;"开头的行是注释,在进一步处理时将被忽略。 但在可追溯性/再现性方面,在注释中指出 程序的版本和用于此实验的参数。
craw_htmp
输入
请参见CRAW U覆盖率输出
输出
craw htmp的默认输出(如果省略--out)是屏幕上的图形窗口。 屏幕上的图形显示可以使用窗口菜单保存。 还可以通过指定--out选项直接生成各种格式的图像文件。 输出格式将从提供给--out选项的文件扩展名中推导出来。
--对于JPEG图像,输出foo.jpeg;对于PNG图像,输出foo.png
所支持的格式因所用matplotlib后端的功能而异(请参见)。
如果使用--size raw,将生成两个文件,一个用于sense,另一个用于反义。 如果未指定--out,则它将是不带扩展名的覆盖率文件的名称,格式为PNG。
craw_htmp foo_bar.cov—原始大小
将产生foo_bar.sense.png和foo_bar.antise.png
craw_htmp foo_bar.cov--原始大小--输出xyzy.jpeg
将生成xyzy.sense.jpeg和xyzy.antise.jpeg
命令行选项
每个craw脚本都有许多选项,可以有一个详尽的选项列表use--help选项 或阅读手册(HTML或PDF)