基于模型的芯片序列数据分析

MACS的Python项目详细描述


Mac自述文件(1.4.3)
时间戳:<;2013-12-16 17:08:36 Tao Liu>; < BR>
*简介 < BR>
随着测序技术的改进,染色质
免疫沉淀后高通量测序(芯片序列)
研究全基因组蛋白质与dna的相互作用越来越流行。到
针对缺乏强大的芯片序列分析方法的问题,我们提出了一种
基于模型的芯片序列分析(macs)新算法,用于
识别转录因子结合位点。macs捕获
基因组复杂性对评估
丰富了芯片区域,macs提高了
结合两个序列标签信息的结合位点
位置和方向。macs可以很容易地用于芯片序列数据
单独或与对照组相比,特异性增加。 < BR>
*安装 < BR>
请检查发行版中的"install"文件。 < BR> *BR/> *用法 < BR>
用法:macs<;-t tfile>;[-n名称][-g基因组大小][选项] < BR>
示例:macs-t chip.bam-c control.bam-f bam-g h-n test-w--调用子峰值 < BR>< BR>
macs——基于模型的芯片排序分析 < BR>
选项:
--版本显示程序的版本号并退出
-h,--help显示此帮助消息并退出。
-t文件,--处理=t文件
芯片序列处理文件。必修的。当Elandmultipet
选中时,必须提供两个文件,文件之间用分隔符分隔
逗号,例如
s_1_u eland_multi.txt,s_1_u eland_multi.txt
-c文件,--控制=文件
控制文件。当选择elandmultipet时,您
必须提供用逗号分隔的两个文件,例如
s庘2庘u eland庘u multi.txt,s庘2庘u eland庘u multi.txt
-n name,--name=name实验名,用于生成输出
文件名。默认值:"NA"
-o输出方向,--outdir=outdir
可选的输出目录名。默认值:当前
-f格式,--format=格式
标签文件格式,"auto"、"bed"或"eland"或
"elandmulti"或"elandmultipet"或"elandexport"或
"sam"或"bam"或"蝴蝶结"。默认自动选项
让macs决定文件的格式。拜托
如果选择el,请检查00readme文件中的定义
和/elandmulti/elandmultipet/elandexport/sam/bam/bowti
e.默认值:"自动"
--petdist=petdist成对结束标记之间的最佳距离。只提供
格式为"elandmultipet"时。默认值:200
-g尺寸,--gsize=gsize
有效基因组大小。它可以是1.0e+9或100000000,
或快捷键:"hs"表示人(2.7e9),"mm"表示鼠标
(1.87e9),'ce'代表c.elegans(9e7),'dm'代表
果蝇(1.2E8),默认值:hs
-s尺寸,--tsize=tsize
标签尺寸。这将覆盖自动检测的标记
尺寸。
--bw=bw带宽。此值仅在生成
换档模式。默认值:300
-p p值,--p值=p值
p峰值检测的值截止。默认值:1e-5
-m mfold,--mfold=mfold
选择最大值范围内的区域-
背景下的置信度富集比
构建模型。区域必须低于上限
限值,高于L限量。默认值:10,30
--nolambda如果为true,macs将使用固定背景lambda作为
每个峰值区域的本地lambda。通常,macs
计算动态局部lambda以反映局部
由于潜在的染色质结构而产生的偏差。
--slocal=smalllocal要计算的基对中的较小邻近区域
动态lambda。这是用来捕捉
山顶地区。如果没有控件,则无效
数据。默认值:1000
--llocal=largelocal要计算的基对中的大邻近区域
动态lambda。这是用来捕捉周围
偏差。默认值:10000。
--on auto是否打开自动对模型过程。如果设置,
当macs无法构建配对模型时,它将使用
nomodel设置,'--shiftsize'参数
移动和扩展每个标记。默认值:false
--nomodel是否构建移位模型。如果属实,
macs不会构建模型。默认的意思是
移位大小=100,尝试将移位大小设置为更改
它。默认值:false
--shiftSize=shiftSize
bp中的任意移位大小。当nomodel为真时,
macs将此值用作片段大小的1/2。
默认值:100
--保持dup=keepduplicates
它控制macs对重复标记的行为
在完全相同的位置——相同的协调
和同一股。默认的"auto"选项使
macs在完全相同的情况下计算最大标记
使用1e-5 as基于二次分布的定位
pvalue cutoff;而"all"选项保留每个标记。
如果给定一个整数,则最多只能有此数量的标记
将保存在同一位置。默认值:1
--设置为大时,将小样本放大到大样本
样品。默认情况下,较大的数据集将被缩放
向下移动到较小的数据集,这将导致
p值越小,结果越具体。保持在
注意缩小比例会降低背景
噪音更大。默认值:false
-w,-wig是否保存扩展碎片堆积
每个wignextend bps都会变成一个wiggle文件。当——单身-
profile打开,整个基因组只有一个文件
已保存。警告:此过程耗费时间/空间!!
-b,--bdg是否在
每一个bp都被放入一个bedgraph文件中。打开时,-w,
--空格和--调用子峰值将被忽略。什么时候?
--打开单个配置文件,整个配置文件只有一个
保存基因组。警告:此过程是时间/空间
消费!!
-s,--single profile设置后,将保存一个摆动文件
处理和输入。默认值:false
--space=space默认情况下,保存摆动文件的重新排列,
macs将每10 bps保存一次原始标记计数。可用的
仅带有"--wig"选项。
--如果已设置,则调用子峰值,macs wi我要用马利鲑鱼的桃子钳
软通系统调用。如果调峰器不能
找到后,将显示一条用于下载的指令
并安装调峰器包。-W选项
需要打开,-b应该关闭才能工作。
默认值:false
--verbose=verbose设置详细级别。0:仅显示关键消息,1:
显示附加警告消息,2:显示进程
信息,3:显示调试消息。默认值:2
--诊断是否生成诊断报告。它起来了
耗时9倍。请检查00readme文件
细节。默认值:false
Fe Min=FEMIN用于诊断,min倍富集考虑。
默认值:0
FEXMAX=FEMAX用于诊断,最大倍浓缩考虑。
默认值:最大折叠扩展
--fe step=festep用于诊断,折叠富集步骤。默认值:20 < BR>< BR>
**参数: < BR>
**-t/--处理文件名 < BR>
这是macs唯一必需的参数。如果格式是
elandmultipet,用户必须提供两个由
逗号,例如s_1_1_1_eland_multi.txt,s_1_2_eland_multi.txt。 < BR>
**-c/--控制 < BR>
bed格式或任何eland输出的控件或模拟数据文件
格式由--format选项指定。请遵循同样的方向
至于-t/--处理。 < BR>
**-n/--名称 < BR>
实验的名称字符串。macs将使用这个字符串名来
创建输出文件,如"name_peaks.xls"、"name_negative_peaks.xls",
"name_peaks.bed"、"name_summits.bed"、"name_model.r"等等。所以
请避免这些文件名与您现有的 文件。 < BR>
**-f/--格式格式 < BR>
标签文件的格式,可以是"eland"、"bed"、"elandmulti",
"elandexport"、"elandmultipet"(用于对端标记)、"sam"、"bam"或
"蝴蝶结"。默认为"auto",允许mac决定格式
自动。请仅当您组合不同的
文件格式。 < BR>
bed格式在"http://genome.ucsc.edu/faq/faq format format1"中定义。 < BR>
如果格式是eland,则文件必须是eland结果输出文件,
每一行只能代表一个标记,字段为: < BR>
1。序列名(如果格式不是fasta,则从文件名和行号派生)
2。序列
3。匹配类型:
nm-未找到匹配项。
qc-没有匹配完成:qc失败(基本上ns太多)。
rm-没有匹配完成:repeat masked(如果指定repeatfile.txt,则可能会看到)。
u0-找到的最佳匹配是唯一的精确匹配。
u1-找到的最佳匹配是唯一的1-错误匹配。
u2-找到的最佳匹配是唯一的2错误匹配。
r0-找到多个完全匹配项。
r1-找到多个1-错误匹配,没有完全匹配。
r2-找到多个2-错误匹配,没有精确匹配或1-错误匹配。
4。找到的完全匹配项数。
5。找到1个错误匹配项的数目。
6。找到2个错误匹配项的数目。
只有找到唯一的最佳匹配(即字段3中的匹配代码以"u"开头)时,才会看到其余字段。
7。找到匹配的基因组文件。 < > 8。匹配位置(文件中的基从1开始编号)。
9。匹配方向(F=正向,R=反向)。
10。如何解释read中的n个字符:(""=不适用,"d"=删除,"i"=插入)。
只有在唯一的不精确匹配(即匹配代码是u1或u2)的情况下才能看到其余字段。
11。第一替换错误的位置和类型(例如12a:基12是a,而不是rea中的任何内容D)。
12。第一个替换错误的位置和类型,如上所述。 < BR>
如果格式是elandmulti,则文件必须是eland输出文件
多个匹配模式,每行只能代表一个标记,其中
字段: < BR>
1。序列名
2。序列
3。NM、QC、RM(如上所述)或以下各项:
4。x:y:z其中x、y和z是找到的精确、单错误和双错误匹配数
5。空白,如果没有找到匹配项,或者如果找到太多匹配项,或者以下情况:
细菌载体。fa:163022R171028f2,大肠杆菌。fa:3909847r1上面写着
与bac_plus_vector.fa有两个匹配项:一个相反
从位置160322开始的方向,有一个错误,一个在
从位置170128开始向前,有两个
错误。与大肠杆菌fa的匹配也有一个错误。 < BR>
如果数据来自对端排序。你可以分开格式
作为elandmultipet(代表eland多个匹配对结束标记),
那么--treat(如果需要--control)参数必须是两个文件
用逗号分隔的名称。每个文件必须是eland multiple match
上述格式。例如 < BR>
macs——格式elandmultipet-t s_1_1_1_eland_multi.txt,s_2_1_eland_multi.txt… < BR>
如果使用elandmultipet,可能需要修改--petdist参数。 < BR>
如果格式为bam/sam,请在
(http://samtools.sourceforge.net/samtools.shtml)。对端映射
结果可以保存在单个bam文件中,如果是,macs将
自动保留左侧配对(5'结束)标签。 < BR>
如果格式是蝴蝶结,则需要提供ascii蝴蝶结输出
后缀为".map"的文件。请注意,你需要确保
在蝴蝶结输出中,只为一个位置保留一个位置 阅读。如果需要,请查看蝴蝶结手册以了解详细信息
(http://bowtie-bio.sourceforge.net/manual.shtml) < BR>
以下是我复制的ASCII字符中蝴蝶结输出的定义
从上述网页: < BR>
1。对齐的读取名称 < BR>
2。在对齐中读取的方向,-对于反向补码,
+否则 < BR>
3。发生对齐的引用序列的名称或序号ID
如果没有提供名称 < BR>
4。向前参考链最左边的0基偏移量
出现对齐字符 < BR>
5。读取顺序(如果方向为-,则反向补充) < BR>
6。ascii编码的读取质量(如果方向为-,则相反)。这个
编码的质量值在phred刻度上,编码是
ascii偏移33(ascii字符!). < BR>
7。同一读取与
与此处对齐的引用字符相同
对齐。这不是读取对齐的其他位置的数目
具有相同数量的不匹配项。此列中的数字是
通常不能很好地代表该数字(例如
此列可以是"0",而其他对齐数
相同数量的不匹配可能很大)。这个专栏是
之前称为"保留"。 < BR>
8。逗号分隔的不匹配描述符列表。如果没有
对齐不匹配,此字段为空。单一的
描述符的格式偏移量为:reference base>;read base。这个
偏移量表示为高质量(5’)的0基偏移量。
阅读结束。 < BR> 注: < BR>
1)对于床格式,第6列钢绞线信息由 Mac。请注意床上坐标是
零基半开
(http://genome.ucsc.edu/faq/faqtracks tracks1)。 < BR>
2)对于纯eland格式,仅与匹配类型u0、u1或u2匹配
仅被macs接受序列的唯一匹配
计算中包含3个以上的错误。如果一次击中多处
标记包含在原始eland文件中,请删除冗余
保持序列标签的最佳命中率。 < BR>
3)对于多次重复的试验,建议
将多个芯片序列处理文件连接到一个文件中。做
在unix/mac或cygwin(对于windows操作系统)下,键入: < BR>
$cat replicate1.bed replicate2.bed replicate3.bed>;全部复制.bed < BR>
4)eland导出格式支持有时可能不适用于
数据集,因为人们可能会错误地标记第11和第12列。麦克斯
使用第11列作为应该是染色体的序列名 名字。 < BR>
**-o输出方向,--outdir=outdir < BR>
可选的输出目录名。默认:当前目录。通过设置
所有输出都将保存在给定的目录中。 < BR>
**--petdist=petdist < BR>
双端标签之间的最佳距离。仅当格式为
"elandmultipe"。默认值为200bps。当macs读取映射位置时
对于5'标记和3'标记,它将决定它们使用的最佳配对
此最佳距离参数。简单的评分系统如下: < BR>
得分=abs(abs(p5-p3)-200)+e5+e5 < BR>
其中p5是5'标签的位置之一,e5是
5'标记的映射位置不匹配/错误。P3和E3用于
3'标签。那么得分最低的被认为是最好的
配对。两人的5'标签位置保持在模型构建中,并且
峰值呼叫。 < BR>
**-g/--gsize < BR>
请指定此参数以满足您的需要! < BR>
是可绘制的基因组大小或有效的基因组大小
定义为可测序的基因组大小。因为
染色体上的重复特征,实际可绘制的基因组大小
将小于原始大小,约占基因组的90%或70% 尺码。对于ucsc human hg18,建议使用默认的hs--2.7e9
装配。以下是有效基因组大小的所有预编译参数: < BR>
-g hs=-g 2.7e9
-g毫米=-g 1.87e9
-g ce=-g 9e7
-g dm=-g 1.2e8 < BR>
**-s/--tsize大小 < BR>
序列标签的大小。如果不指定,macs将尝试
使用输入处理文件的前10个序列来确定
标签大小。指定它将覆盖自动确定的标记 尺码。 < BR>
**--体重 < BR>
用于扫描模型基因组的带宽
建筑。您可以将此参数设置为声波片段大小
来自湿实验。高峰前的副作用
检测过程已被删除。所以这个参数只影响
模型构建。 < BR>
**-p/--p值 < BR>
p值截止。默认值为1e-5。 < BR>
**-m/--mfold < BR>
此参数用于选择
要建立的背景下的高置信度富集比 BR/>模型。区域必须低于上限,并且高于
褶皱富集下限。默认值:10,30表示使用所有区域
不要太低(>;10)也不要太高(<;30)以建立成对的峰值 BR/>模型。如果macs找不到超过100个区域来构建模型,那么
将使用--shiftSize参数继续峰值检测。 < BR>
有关详细信息,请检查相关的*--off auto*和*--shiftsize*。 < BR>
**--诺兰巴达 < BR>
启用此标志时,Mac将使用背景lambda作为本地
兰姆达。这意味着macs不会考虑峰值时的局部偏差
候选区域。 < BR>
**--slocal,--llocal < BR>
这两个参数控制哪两个级别的区域
检查峰值区域以计算最大lambda
本地lambda。默认情况下,macs考虑1000bp对于小型本地
区域(--slocal),大区域(--llocal)10000 bps
它捕捉到来自远程效果的偏差,就像打开
染色质结构域。你可以根据你的
项目。记住,如果区域设置得太小,则会出现一个尖锐的尖峰
在输入数据中可能会杀死有效峰值。 < BR>
**--自动 < BR>
是否打开自动配对峰值模型过程。如果设置,当macs
无法构建成对模型,它将使用nomodel设置,
'--shiftsize'参数来移动和扩展每个标记。如果没有设置,
如果配对的峰值模型失败,则将终止macs。 < BR>
**--NoModel公司 < BR>
开启时,macs将绕过构建移位模型。 < BR>
**--移位大小 < BR>
设置"--nomodel"时,macs使用此参数将标记移到
他们的中点。例如,如果
转录因子是200 bp,你想绕过这个模型
通过macs构建,此参数可以设置为100。这个选项是
仅在设置了--nomodel或macs无法构建时有效
双峰模型。 < BR>
**--保留DUP < BR>
它控制macs对完全相同的重复标记的行为
位置——相同的协调和相同的链。默认值
"auto"选项使mac计算最大标签的时间完全相同
以1e-5为阈值的基于二次分布的定位;
并且"全部"选项保留所有标记。如果给定整数,则在
大多数这些标签将保存在同一位置。违约:
1。 < BR>
**--大 < BR>
未设置时,将较大的数据集缩放到较小的数据集;
设置时,较小的数据集将向较大的数据集缩放
数据集。 < BR>
**-w/--假发 < BR>
如果该标志打开,macs将以wiggle方式存储碎片堆积
每个染色体的格式。将存储gzip的wiggle文件
在名为name+"u macs_wiggle/treat"的子目录中查找治疗数据
和name+"u macs_wiggle/control"用于控制数据。--单剖面
可以将选项组合在一起以生成整个wig文件 基因组。 < BR>
**-b/--bdg < BR>
如果该标志打开,macs将把碎片堆存储在bedGraph中
每个染色体的格式。基本上,bedgraph文件
小于摆动文件。不过,这个过程需要一点时间
比-w选项更长,因为理论上1bp分辨率数据 保存。bedGraph文件将被gzip压缩并存储在子目录中
命名+用于治疗和
控制数据的名称+"U macs_bedgraph/control"。--单剖面
可以组合选项为
全基因组。 < BR>
**-s/--单轮廓(以前是单假发) < BR>
如果该标志打开,macs将以wiggle或
整个基因组的床状图格式,而不是
染色体。gzip的wiggle文件将存储在子目录中
命名实验+苹果摆动+苹果摆动/治疗
+实验名称+"在安装完所有假发后进行治疗"或
"在安装完所有bdg.gz后处理"以获取处理数据,以及
实验名称+"Mac晃动"+"Mac晃动/控制"
+实验名称+安装完毕后的"控制"wig.gz或
"控制数据安装完毕后的控制"。 < BR>
**--空格=空格 < BR>
默认情况下,保存摆动文件的重新评估为10 bps,即,
macs将每10 bps保存一次原始标记计数。你可以改变它
带有"--wig"选项。 < BR>
请注意,如果-b/--bdg打开,则此选项不起作用。 < BR>
**--调用子峰值 < BR>
如果设置了,macs将通过
系统调用。如果找不到峰值分配器,则
用于下载和安装PeakSpliTTR包。这个
峰值分配器可以细化macs峰,并将宽峰分成
较小的子峰。有关详细信息,请检查以下URL: < BR>
http://www.ebi.ac.uk/bertone/software/peaksplitter_cpp_usage.txt < BR>
请注意,如果-b/--bdg打开,则此选项不起作用。 < BR>
**--详细 < BR>
如果您不想在运行macs时看到任何消息,请设置
设置为0。但关键信息永远不会被隐藏。如果你想要
查看丰富的信息,例如每个
染色体,可以设置为3或大于3。 < BR>
**--诊断 < BR>
可通过此选项生成诊断报告。本报告
可以帮助您获得关于序列饱和的假设。这个
功能仅处于测试阶段。 < BR>
**--有限元最小值,--有限元最大值&有限元步长 < BR>
对于诊断,femin和femax是最小值和最大值
需要考虑的富集作用,festep是褶皱的间隔
浓缩。例如,"--fe min 0--fe max 40--fe步骤10"将
让macs选择要考虑的以下折叠富集范围:
[0,10],[10,20],[20,30)和[30,40)。 < BR>
*输出文件 < BR>
1。name_peaks.xls是一个表格文件,包含有关
称为峰值。您可以在excel中打开它并使用excel进行排序/筛选
功能。信息包括:染色体名称,起始位置
峰、峰尾位置、峰区长度、峰顶
与峰区起始位置相关的位置,标签数量
在峰区,-10*log10(pvalue)为峰区(例如pvalue
=1e-10,则该值应为100),该值的倍数丰富
具有局部lambda,fdr的随机poisson分布区域
百分比。xls中的坐标是基于1的,这与床不同
格式。 < BR>
2。name_peaks.bed是包含峰值的床格式文件
地点。您可以将其加载到UCSC基因组浏览器或Affymetrix IgB
软件。此文件中的第5列是-10*log10pvalue of peak
地区。 < BR>
3。name_summits.bed采用bed格式,其中包含高峰
每个山峰的位置。文件的第五栏是首脑会议
碎片堆积高度。如果你想在
绑定站点,建议使用此文件。 < BR>
4。name_negative_peaks.xls是一个表格文件,其中包含
负峰信息。负峰由
交换芯片序列和控制通道。 < BR>
5。name_model.r是一个r脚本,可用于生成pdf
根据您的数据显示模型的图像。通过以下方式将其加载到R: < BR>
$r——香草味<;name_model.r < BR>
然后将在您当前的
目录。注意,R是绘制此图所必需的。 < BR>
6。name_treat/control_after fiting.wig.gz文件在name_macs_wiggle中
目录是可导入ucsc的摇摆格式文件
基因组浏览器/gmod/affy-igb。.bdg.gz文件在bedGraph中
也可以导入ucsc基因组浏览器或
转换成更小的大人物文件。 < BR>
7。name_diag.xls是诊断报告。第一列是各种
富集范围;第二列是该fc的峰数
范围;第3列之后是
采样90%、80%、70%…以及总标签的20%。 < BR>< > 8。name_peaks.subpeaks.bed是一个不在床上的文本文件
格式。此文件由peaksplitter生成
(http://www.ebi.ac.uk/bertone/software/peaksplitter_cpp_usage.txt>;)
设置--call subpeaks选项时。 < BR>
*其他有用的链接 < BR>
用于芯片/序列分析的cistrome web服务器:http://cistrome.org/ap/ < BR>
bedtools——一个非常有用的基因组注释文件工具包:http://code.google.com/p/bedtools/ < BR>
UCSC工具包:http://hgdownload.cse.ucsc.edu/admin/exe/

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如果一个程序完全由线程安全类组成,它是线程安全程序吗?   java调和序列递归   如何使用Java缩放和显示图像的特定部分   Azure如何在Java中使用AKV(Azure密钥库)签署时间戳请求(RFC 3161)   在java中读取文件并打印最大值和最小值   java textinputlayout密码切换图标被阻止   java是否可以在运行时加载库?   用于管道分隔多行非结构化数据的java Map Reduce代码   用于AM/PM的java Android DateFormat在设备之间有所不同   java试图将日期转换为下面正文中的格式,但未成功   Java gc没有自动清除内存   Java编码错误   java在Android studio 1.0中加载项目时如何解决运行时异常?