表观遗传变异与转录因子模体分析管道

haystack_bio的Python项目详细描述


干草堆
========
表观遗传变异性和基序分析管道
-- < BR> 总结

Haystack是一套可供研究的计算工具
染色质状态的表观遗传变异性、跨细胞类型可塑性和转录因子(tfs)基序提供了染色质结构、细胞特性和基因调控的机制性见解。 < BR>
Haystack识别了不同细胞类型(也称为热点)的高度可变区域,以及通过整合多个数据类型介导细胞类型特定变化的潜在调节器。 < BR>
Haystack可与组蛋白修饰数据、DNA酶I超敏位点数据和甲基化数据一起使用,例如通过Chip Seq、DNA酶Seq和亚硫酸氢盐Seq分析获得,并在多种细胞类型中测量。此外,还可以整合从基于阵列或rna-seq方法获得的基因表达数据。 < BR>
特别是,Haystack突出了可变和细胞类型特异区域中丰富的TF基序,并量化了它们在附近基因上的活性和特异性(如果有基因表达数据)。 < BR>
管道概要和H3K27AC数据示例如下图所示: < BR>< BR>![干草堆管道](http://bcb.dfci.harvard.edu/~lpinello/haystack/final_figure.png) < BR>< BR>
**(a)**Haystack概述:模块和相应的函数。**(b)**对H3K27AC的热点分析:信号轨迹、变异轨迹和变异热点是从芯片序列对齐的数据中计算出来的;此外,还提取特定于给定单元类型的区域。**(c)**h1hesc细胞株pou5f1::sox2特异区域的motif分析有显著意义;计算p值和q值、motif logo和平均轮廓。**(d)**与其他细胞类型(圆形)相比,h1esc中sox2的转录因子活性、sox2表达的x轴特异性(z-score)、y轴效应(z-score)对含有sox2基序区域附近基因的影响。 < BR>
Haystack设计为高度模块化。可以使用haystack管道命令调用整个管道,或者可以独立地使用和组合不同的模块。例如,在给定的基因组区域集合上,可以只使用调用"Haystack"模体的模体分析。如何使用Haystack一节对每个模块都有很好的描述。 < BR>
安装和要求
---
要安装haystack,在运行安装程序之前必须安装一些依赖项: < BR>
1)蟒蛇2.7 anaconda:http://continuum.io/downloads < BR>
2)Java:http://java.com/download < BR>
3)C编译器/制造商。对于OSX 10.7或更高版本的Mac,打开终端应用程序,键入并执行命令"make",这将触发OSX开发工具的安装。官方不支持Windows系统。 < BR>
检查所需软件是否已安装后,您可以按照以下步骤从正式的python存储库安装haystack: < BR>
1)打开终端窗口 < BR>
2)键入命令: < BR>
pip安装haystack_bio—不使用轮子—冗长 < BR>< BR>
或者,如果要在不使用pip实用程序的情况下安装软件包: < BR>
1)下载安装文件:
https://github.com/lucapinello/haystack/archive/master.zip
如果你想预装人类和老鼠的基因组(hg19和mm9),可以下载这个:
http://bcb.dfci.harvard.edu/~lpinello/haystack/haystack\u设置与基因组.zip < BR>
2)解压缩文件,您将得到一个名为haystack master的文件夹 < BR>
3)打开终端窗口,转到解压缩zip文件的文件夹,例如: < BR>< BR>
CD~/下载
大海捞针斯特 < BR>
4)键入安装命令: < BR>
python setup.py安装 < BR>
**重要**:安装程序将自动在主文件夹中创建一个名为"hayastack\u dependencies"的文件夹,并将所有必需的依赖项放在其中。_如果这个文件夹被删除,Haystack将不起作用!γ < BR>
如果要将文件夹放在其他位置,则需要设置环境变量: < BR>
Haystack_Dependencies_文件夹 < BR>
例如,在**安装之前,将文件夹放入/home/lpinello/other_stuff中**: < BR>
导出Haystack_dependencies_folder=/home/lpinello/other_内容 < BR>
Docker图像
----
如果您喜欢Docker,我们还提供Docker图像: < BR>
https://hub.docker.com/r/lucapinello/haystack_bio/ < BR>
要使用映像,请先安装docker:http://docker.com < BR>
然后键入命令: < BR>
码头工人拉卢卡皮内洛/干草堆生物 < BR>
有关如何使用Docket图像运行Haystack的示例,请参见下面的**测试Haystack**部分。_如果出现内存错误,请尝试至少为Docker映像分配8GB以运行Haystack。 < BR>
当前版本仅与64位体系结构上的类Unix操作系统兼容,并在以下平台上进行了测试:
-中心6.5
-Debian 6.0版
-ubuntu 12.04和14.04 LTS
-OSX特立独行和山狮 < BR>< BR>
操作系统说明

**在亚马逊网络服务(aws)云中的ubuntu(在14.04 LTS上测试)* < BR>
1。启动并连接到您从aws控制台选择的amazon实例(建议使用m3.large)或您的ubuntu机器。 < BR>
2。创建交换分区(**this step is only for the aws cloud**)

sudo dd if=/dev/zero of=/mnt/swapfile bs=1M计数=20096
sudo chown根:根/mnt/swapfile
sudo chmod 600/mnt/交换文件
sudo mkswap/移动/交换文件
sudo swapon/mnt/swapfile公司
sudo sh-c"echo"/mnt/swapfile交换默认值0 0'>;>/etc/fstab"
苏多斯瓦蓬-A

3。安装依赖项

sudo apt get update&;sudo apt get update&;sudo apt get install git wget default jre python setuptools python pip python dev python numpython scipy python matplotlib python pandas python imaging python setuptools unzip ghostscript使gcc g++zlib1g dev zlib1g-y
< BR>
__ < BR>
4。安装干草堆

sudo pip install haystack_bio--不使用轮子--冗长
< BR>
5。下载并运行测试数据集

wget http://bcb.dfci.harvard.edu/~lpinello/haystack/haystack_test_dataset_h3k27ac.tar.gz
tar xvzf haystack_test_dataset_h3k27ac.tar.gz
CD测试数据集
Haystack_pipeline samples_names.txt HG19干草堆管道样本
< BR>
所有结果都将存储在haystack_pipeline_result文件夹中 < BR>
**苹果OSX** < BR>
要在osx上安装haystack,您需要使用命令行工具(通常随xcode一起提供)。
如果没有,可以从这里下载:
https://developer.apple.com/downloads/index.action网站 < BR>
您可能需要创建一个免费的Apple开发者帐户。 < BR>
要生成Motif徽标,您需要最新版本的Xquartz,请从http://xquartz.macosforge.org/landing/下载并安装DMG。 < BR>
优胜美地的更新可能会破坏Motif徽标的生成。
如果您在haystack_motif实用程序的输出中没有看到motif徽标,请安装最新版本的xquartz:http://xquartz.macosforge.org/landing/。 < BR>
或者,如果您不想更新Xquartz,您可以从终端键入以下命令来解决问题:

sudo ln-s/opt/x11/usr/x11 SU BR/SUdo ln-s/opt/x11/usr/x11r6
< BR> 此外,还需要为Windows安装Java。 < BR>
注意:如果在自定义文件夹中安装haystack,请确保选择不带空格的路径。 < BR>< BR>
预计算分析
---- < BR>
我们已经在多个编码数据集上运行haystack,您可以下载预计算结果(变化轨迹、热点、特定区域、丰富的基序和活动平面): < BR>
1。h3k27ac在人细胞系中的12条芯片序列分析+基因表达:http://bcb.dfci.harvard.edu/~lpinello/haystack/haystack_h3k27ac.tar.gz
2。人类细胞系中17条DNA序列的分析+基因表达:(增益)http://bcb.dfci.harvard.edu/~lpinello/haystack/haystack_dnase.tar.gz和(损失)http://bcb.dfci.harvard.edu/~lpinello/haystack/haystack_dnase_defied.tar.gz
3。人类细胞系dna甲基化+基因表达的10个rrbs序列分析:http://bcb.dfci.harvard.edu/~lpinello/haystack/haystack_methylization.tar.gz
4。H3K27ME3在人细胞系中的17条芯片序列分析+基因表达:http://bcb.dfci.harvard.edu/~lpinello/haystack/haystack_H3K27ME3.tar.gz < BR>< BR>
如何使用干草堆
------
干草堆由5个模块组成: < BR>
1)**Haystack_Hotspots**:查找不同芯片序列、DNA序列或亚硫酸氢盐序列轨迹上的可变区域(甲基化数据仅支持Bigwig处理文件)。输入是一个包含BAM文件(删除PCR重复项)或bigwig(必须是.bw)的文件夹,或一个以制表符分隔的文本文件,其中包含两列:1。样本名称和2。对应的.bam/.bw文件的路径。例如,可以在名为"samples""names""hotspot.txt"的文件中写入类似的内容:

k562./input_data/k562h3k27ac_sorted_rmdup.bam
gm12878/输入数据/gm12878h3k27ac_排序的rmdup.bam
hepg2./输入数据/hepg2h3k27ac\u排序的rmdup.bam
h1hesc./input_data/h1hesch3k27ac_sorted_rmdup.bam
hsmm./input_data/hsmmh3k27ac_sorted_rmdup.bam
nhlf./input_data/nhlfh3k27ac_sorted_rmdup.bam

输出包括:
-每个曲目的规范化bigwig文件
-热点,即变化最大的区域
-每个轨道的可变和特定区域,这意味着与其他轨道相比,信号更丰富到特定轨道。
-来自Broad Institute的用于IGV软件(http://www.broad institute.org/igv/)的会话文件(.xml),用于轻松可视化生成的所有轨迹、热点和每个单元线的特定区域。要加载它,只需从IGV窗口顶部的输出文件夹中拖放文件"用igv.xml打开"或用文件加载到IGV中->;打开会话…如果无法打开文件,请更新您的igv版本。另外,请不要只移动.xml文件,您需要输出文件夹中的所有文件才能正确加载会话。 < BR>
**
假设您有一个名为/users/luca/mybamfolder的文件夹,可以使用以下命令运行可变性分析: < BR>
草堆热点/用户/luca/mybamfolder hg19
如果您有一个包含样本描述的文件,如"样本名称"hotspot.txt,则可以使用以下命令运行变异性分析: < BR>
Haystack热点示例 < BR>
2)**干草堆基序**:在给定的基因组区域中发现丰富的转录因子基序
输入是一组.bed格式的区域(http://genome.ucsc.edu/faq/faq format.html format1)和参考基因组,输出包括一个HTML报告,其中:
-富含p和q值的基序
-图案轮廓和徽标
-具有特定图案的区域列表以及这些区域中图案的坐标
-与具有特定基序的区域最接近的基因列表 <>
**
要分析hg19基因组上的bed文件myregions.bed: < BR>
草堆图案myregions.bed hg19 < BR>
要指定分析的自定义背景文件,例如"mybackgroundregions.bed"运行: < BR>
草堆图案myregions.bed hg19——bed-bg文件名mybackgroundregions.bed < BR>
要使用特定的motif数据库(默认为jaspar),请使用: < BR>
草堆图案myregions.bed hg19--meme_motions_filename my_database.meme < BR>
数据库文件必须采用meme格式:http://meme.nbcr.net/meme/doc/meme format.html min_u格式 < BR>
3)**Haystack-tfu活性平面**:量化整合基因表达数据的**Haystack-tfu基序**所增强的tfs的特异性和活性。 < BR>
输入由1组成。**Haystack_Motif**工具的输出文件夹,2。包含在制表符删除文件和3中指定的基因表达数据的一组文件。用于执行分析的目标单元格类型名称。每个基因表达式数据文件必须是一个制表符分隔的文本文件,包含两列:1。基因符号2。基因表达值。这样的文件(每种分析的单元格类型对应一个)应如下所示:

RNF14 7.408579
UBE2Q19.107306
ube2q2 7.847002
RNF10 9.500193
RNF11 7.545264
LRRC31 3.477048号
RNF13 7.670409
CBX4 7.070998标准
参考编号:6.148991
参考编号2 5.957589 < BR>< BR>< BR>

描述示例的文件(例如名为"sample_names_tf_activity.txt"的文件)应包含如下内容:

k562./输入数据/k562\u genes.txt
gm12878./输入数据/gm12878\u genes.txt
hepg2./输入数据//hepg2_genes.txt
h1hesc./input_data/h1hesc_genes.txt
hsmm./input_data/hsmm_genes.txt
nhlf./输入数据/nhlf.txt
< BR>
输出是一组图形,每个图形都包含给定基序的tf活动平面。 < BR>
**
假设实用程序**haystack_motif**在分析名为k562的单元格类型时创建了名为"haystack_motif"的文件夹,并且您已经编写了名为"tf_activity.txt"的示例,如上所述,您可以使用以下命令运行tf activity analysis: < BR>
Haystack_tf_activity_plane Haystack_motif_on_k562/sample_names_tf_activity.txt k562 < BR>
4)**haystack_pipeline**:自动执行wholw pipeline,即1)和2)和可选3)(如果提供了基因表达文件)查找热点、特定区域、基序并量化其在邻近基因上的活性。 < BR>
输入是一个以制表符分隔的文本文件,其中有两列或三列包含1。样本名称2。相应BAM文件3的路径。基因表达文件的路径,其格式与3中描述的相同;请注意,最后一列是可选的。 < BR>
例如,您可以有一个名为"samples\u names.txt"的文件,其内容如下:

k562./input_data/k562h3k27ac_sorted_rmdup.bam./input_data/k562_genes.txt
gm12878./输入数据/gm12878h3k27ac_sorted_rmdup.bam./输入数据/gm12878_genes.txt
hepg2./输入数据/hepg2h3k27ac_sorted_rmdup.bam./输入数据//hepg2_genes.txt
h1hesc./input_data/h1hesch3k27ac_sorted_rmdup.bam./input_data/h1hesc_genes.txt
hsmm./input_data/hsmmh3k27ac_sorted_rmdup.bam./input_data/hsmm_genes.txt
nhlf./input_data/nhlfh3k27ac_sorted_rmdup.bam./input_data/nhlf_genes.txt
< BR>
或者,可以指定包含.bam文件(删除PCR副本)或.bw文件(bigwig格式)的文件夹。 < BR>
**
假设有一个名为/users/luca/mybamfolder的文件夹,可以使用以下命令运行该命令: < BR>
干草堆管道/用户/luca/mybamfolder hg19 < BR>
注意:在这种情况下,管道运行1)和2),但不是3),因为没有提供基因表达数据。 < BR>
如果您有一个包含.bam或.bw文件名的示例说明文件(注意:不能将.bam和.bw)和基因表达数据,如上面描述的_samples_names.txt,您可以使用以下命令运行整个管道: < BR>
Haystack_pipeline samples_names.txt HG19干草堆管道样本 < BR>
5)**下载基因组**:它允许您以适当的格式从ucsc下载并添加参考基因组到haystack。下载基因组运行: < BR>
下载基因组名称 < BR>
**
要下载人类基因组程序集hg19运行: < BR>
下载基因组hg19 < BR>
注意:可能不需要显式调用此命令,因为它是在其他命令需要下载特定程序集时调用的。 < BR>
您可以使用-h或--help标志获得这5个命令中每个命令的所有参数的更多详细信息,该标志将打印一个很好的描述。 < BR>< BR>
测试干草堆
-- < BR>
要测试整个管道,可以从encode项目下载这组bam文件:
http://bcb.dfci.harvard.edu/~lpinello/haystack/haystack_test_dataset_h3k27ac.tar.gz < BR>
使用以下命令解压缩文件: < BR>
tar xvzf haystack_test_dataset_h3k27ac.tar.gz < BR>
进入包含测试数据的文件夹: < BR>
CD测试数据集 < BR>
然后使用提供的samples_names.txt文件运行haystack_pipeline命令: < BR>
Haystack_pipeline samples_names.txt HG19干草堆管道样本 < BR>
如果使用Docker映像,请使用以下命令运行: < BR>
docker run-v${pwd}:/data-w/data-i lucapinello/haystack_bio haystack_pipeline samples_names.txt hg19 < BR>
如果在窗口上运行Docker,则必须指定完整路径: < BR>
docker run-v//c/users/luca/downloads/test_dataset:/data-w/data-i lucapinello/haystack_bio haystack_pipeline samples_names.txt hg19 < BR>
这将重新创建概要图中显示的面板和绘图,以及测试数据集中包含的所有其他单元格类型的其他面板和绘图。 < BR>
引文
--
*如果您在研究中使用Haystack,请引用以下文章*:
*卢卡·皮内罗、徐健、斯图尔特·奥金和郭成元。染色质状态可塑性分析确定H3K27ME3模式PNAS 2014的细胞类型特异性调节器;2014年1月6日出版,doi:10.1073/pnas.1322570111 < BR>
联系人
--
请将任何评论或错误发送到Jimmy Dot Harvard Dot Edu的lpinello < BR>
此发行版中包含并使用的第三方软件
---
1。Peakannotator:http://www.ebi.ac.uk/research/bertone/software
2。来自meme套件的fimo(4.9.1):http://meme.nbcr.net/meme/
3。Weblogo:http://weblogo.berkeley.edu/logo.cgi
4。samtools(0.1.19):http://samtools.sourceforge.net/
5。bedtools(2.20.1):https://github.com/arq5x/bedtools2
6。UCSC Kent实用程序中的BedGraphToBigWig和BigWigAverageOverbed:http://hgdownload.cse.ucsc.edu/admin/jksrc.zip

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
安卓中的java标签长点击问题   JavaSpringMVC多行表单提交提交新的ModelAttribute   程序来查找java程序中的方法数   在JSF中自动选择java下拉列表   java onNext为ArrayList的每个元素触发,而不是使用RXJava触发一次   为什么java不允许创建内部类的实例?   JavaJSF<p:calendar>小部件在选择不同月份时不会刷新   java如何限制JFileChooser只允许选择特定数量的文件?   java ANT build无法识别geckodriver可执行文件“驱动程序可执行文件不存在”   java TextView空指针异常   java试图在安卓中传递参数   如何将XML配置转换为Java   java支持使用JAXRPC的soap服务,但pom中没有定义它。xml   在Java中检查整个ArrayList