基于甲基化模式的亚克隆组成的无参考推断
subclone-prism的Python项目详细描述
甲基化p基于模式,r无参考值i无参考值s亚克隆值m增加。(v1.0.1)
先决条件
- BAM文件的RRB读取,由bismark对齐。
Prism需要亚硫酸氢盐读取映射工具Bismark的映射结果。还要注意,prism只适用于rrbs数据,不幸的是,prism对来自其他甲基化分析技术(如全基因组亚硫酸氢盐测序(wgbs)、甲基化dna免疫沉淀测序(medip-seq)或甲基cpg结合域捕获测序(mbdcap-seq))的数据的可行性尚未得到验证。
安装
prism可以通过pypi安装。
pip install subclone-prism
文档
下面是简单的快速入门用法。如果您感兴趣,请参阅full documentation。
用法
棱镜分析分三步进行:extract
-preprocess
-deconvolute
。
快速启动
# Extract epiloci from BAM file. prism extract -i sample.bam -o sample.met # Preprocess epiloci to get finer estimates of epigenetic subclones# and to increase the number of fingerprint epiloci. prism preprocess -i sample.met -o sample.corrected.met # Infer the subclonal composition of the sample.# 1-sample deconvolution. prism deconvolute -i sample.corrected.met -o sample.prism.result # 2-sample deconvolution. prism deconvolute -i sample1.corrected.met sample2.corrected.met -o sample.prism.result # Scatterplot for visualization of the result. prism scatter -i sample.prism.result -o sample.png # Annotation of fingerprint epiloci for functional characterization of# discovered epigenetic subclones. prism annotate -i sample.prism.result -o sample.prism.annotated.result \ --beds annotation_a.bed annotation_b.bed \ --annotation-names ANNOTATION-A ANNOTATION-B
提取
prism extract
命令从bam文件中提取有活力的外显子。
换句话说,它提取基因组区域,其中包含足够数量的映射读取(>;=d)和足够数量的cpg(>;=c)。
生成包含这些epilocis信息的结果文件,其文件扩展名随后为.met
。
要使用默认设置(d=20,c=4)提取epilocis,只需运行下面的命令:
prism extract -i sample.bam -o sample.met
如果要为所需的排序深度和cpg的数量指定自己的截止值,例如d=15和c=3,请按如下方式运行:
prism extract -i sample.bam -o sample.met -d 15 -c 3
请注意,根据使用的参考基因组,您可能需要指定-u/--prepend-chr
选项。
另外,您应该使用-x/--paired
选项来通知prism您正在使用成对的末端排序数据。
有关所有选项的详细说明,请运行prism extract -h
。
预处理
prism preprocess
命令修正甲基化模式中的错误,以放大{em1}$指纹外显位点的数目,并校准亚克隆大小估计。
prism preprocess -i sample.met -o sample.corrected.met
使用-t/--threads
选项进行多线程处理可能会使您受益匪浅。
prism preprocess -i sample.met -o sample.corrected.met -t 30
此步骤是资源密集型的,因此默认情况下Prism会尝试预过滤不太可能是指纹外点的外点。
当然,这个预过滤可以通过-f/--no-prefilter
选项关闭,这确实可以更好地估计子克隆。
但是,请注意,根据您的数据大小,此步骤将持续很长时间。
为了帮助您决定是否应用预过滤,对于30个线程(-t 30
)~2亿个met文件,在没有预过滤的情况下预处理大约需要5个小时。
prism preprocess -i sample.met -o sample.corrected.met --no-prefilter -t 30
有关所有选项的详细说明,请运行prism preprocess -h
。
反褶积
prism deconvolute
命令推断样本的亚克隆组成。简单地给出甲基化模式校正的表位基因文件。
prism deconvolute -i sample.corrected.met -o sample.prism.result
棱镜的另一个特点是可以同时利用单个肿瘤的两个或多个样本,共同推断亚克隆成分。要触发联合分析,请指定corrected.met
文件的列表。
prism deconvolute -i sample1.corrected.met sample2.corrected.met -o sample.prism.result
有关所有选项的详细说明,请运行prism deconvolute -h
。
散布
prism scatter
命令生成棱镜分析结果的散射图。
你需要一个prism deconvolute
的结果。
anlaysis的维度(即,您给prism deconvolute
命令提供的样本数)不应超过三个,以使其可视化。
请注意,输出文件的文件扩展名应该是图像文件(如png、jpg或pdf)的通用扩展名。
prism scatter -i sample.prism.result -o sample.png
注释
prism annotate
命令对棱镜分析结果进行函数注释。
它需要收集基因组间隔作为床文件。为prism annotate
提供一个或多个床文件,每个床文件都有代表性的注释项。
基本的它只生成带注释的结果,另外一列有逗号分隔的术语,epilocis被注释到这些术语上。
prism annotate -i sample.prism.result -o sample.prism.annotated.result --beds annotation_a.bed annotation_b.bed --annotation-names ANNOTATION-A ANNOTATION-B
要提取带有特定注释项的epilocits,请使用下面的命令。
cat sample.prism.annotated.result | grep 'ANNOTATION-A'
此外,还可以使用--figure
选项生成带注释的散点图。
prism annotate -i sample.prism.reslt -o sample.prism.annotated.result --beds annotation_a.bed annotation_b.bed --annotation-names ANNOTATION-A ANNOTATION-B --figure sample.prism.annotated.png