在不同的p值截断点比较一个数据集和另一个数据集
enrich_pvalues的Python项目详细描述
一个简单的脚本,用于在 各种P值截止值。通过绘制各种 截止值,可以为数据选择最佳截止值。
版本:1.0-beta2
Algorithm
对于介于max_pval(默认值:0.05)和 min_pval(默认值:1e-15),我们以1和5的间隔对 Magnitute,例如0.05、0.01、0.005、0.001、5E-4、1E-4、5E-5、1E-6、…1E-15。
为了测试,我们只需要取p值小于截止值的所有恒等式 将它们与比较集中p值低于 comp_set_pvalue。我们只需问在 比较集。然后我们对 p值大于0.98的比较集。
身份通常是基因或snp名称,但它们可以是 任何东西(如坐标),只要它们在测试和比较中重叠 数据。
Installation
通过pypi安装:
pip install enrich_pvalues
或从github安装:
pip install https://github.com/TheFraserLab/enrich_pvalues/tarball/master
它应该可以与Python2或3一起使用,但建议使用Python3。
Requirements
在requirements.txt中,我们使用numpy、pandas、matplotlib、seaborn、tablate, 以及TQM。
Usage
首先,转储一个配置文件来描述您的数据:
enrich_pvalues dump-config enrich_atac.json
这还将打印一个帮助表来描述每个选项。你需要描述一下 比较数据和测试数据,并选择p值阈值。
接下来,将比较数据集拆分为两个表:有效的,和 不重要:
enrich_pvalues split -c enrich_atac.json --prefix atac /path/to/comp_data.txt.gz
现在,使用这两个表和您的测试数据运行扩展:
enrich_pvalues run -c enrich_atac.json -o atac_scores.xls -p atac /path/to/test_data.txt
注意,倒数第二个参数是第二步的前缀。
最后,绘制数据。这也可以通过传递来完成,例如--plot myplot.png 去跑步。
enrich_pvalues plot --prefix caQTL atac_scores.xls atac_plot.pdf
注:分数可以是excel格式、pickled格式或文本格式,具体取决于 在后缀上。此外,此绘图步骤中的前缀不同,它用于 只有标题的情节,所以可以是任何你想要的。