分析真菌基因组数据的管道
vbtools的Python项目详细描述
vbtools:一个用于比较vcf与一致性集的变体基准工具
安装
安装之前,请确保conda位于PATH
下。conda安装here。
# clone this repo git clone git@github.com:broadinstitute/vbtools.git # setup conda environmentcd vbtools conda env create -f env.yml # this will take a few minutes conda list # verify new environment was installed correctly# activate environment conda activate vbtools # deactivate the environment when done conda deactivate # completely remove the virtual environment conda remove -name vbtools --all
用法
您可以使用以下命令根据参考/一致性VCF对VCF进行基准测试。
vcfbench.py -v <input.vcf> -b <reference.vcf>
--prefix
是定义输出文件前缀的选项。
目前,分析只支持单倍体vcf。二倍体VCF在比较前将标准化为单倍体。输入vcf应该跟在VCF spec v4.2后面。
在分析之前,对输入VCF执行以下预处理步骤:
- 删除未使用的等位基因
- 去除单晶位点
- 去除杂合基因型的位点
- 删除非SNP站点
- 删除带有星号标记的网站
- 二倍体转化为单倍体vcf
脚本将输出:
- 站点级别比较:
- 一个TSV文件,包括唯一和共享站点的数量。
- 样本水平比较:
- 示例级别比较功能将很快添加到脚本中。