与DBSNP VCF数据接口
pydbsnp的Python项目详细描述
PYDBSNP
与DBSNP VCF数据接口
安装
step 0(可选):如果不想使用环境变量
不要在意pydbsnp
在引擎盖下是如何工作的,跳过这一步。
如果愿意,可以确定pydbsnp
查找相关内容的位置
使用四个环境变量的数据:PYDBSNP_VCF_GRCH37
,
PYDBSNP_RSID_GRCH37
,PYDBSNP_VCF_GRCH38
,PYDBSNP_RSID_GRCH38
。这个VCF
变量决定vcf数据的位置,RSID
变量
确定rsid指数的位置。例如,您可以添加
致您的.bash_profile
:
exportPYDBSNP_VCF_GRCH37=<path of your choice> exportPYDBSNP_RSID_GRCH37=<path of your choice> exportPYDBSNP_VCF_GRCH38=<path of your choice> exportPYDBSNP_RSID_GRCH38=<path of your choice>
如果在继续下一步之前设置这些变量,pydbsnp
将
使用它们来确定它放置下载的VCF文件和RSID索引的位置。
步骤1:通过pip3
安装python包
pip3 install pydbsnp
或
pip3 install --user pydbsnp
step 2:安装python包后,下载dbsbp并为其编制索引 VCF数据:
pydbsnp-download pydbsnp-index
对于HG19/GRCH37坐标:
pydbsnp-download --reference-build GRCh37 pydbsnp-index
命令行用法
pydbsnp-query -h
pydbsnp-query rs231361 pydbsnp-query chr8:118184783 pydbsnp-query --reference-build GRCh37 rs231361 pydbsnp-query rs231361 chr8:118184783 rs7903146
API
提供了两个类:Variant
和GeneralizedVariant
。
Variant
类的对象对每个相关字段都有一个属性
VCF的。
frompydbsnpimportVariantv=Variant(id='rs8056814')print(v.chrom,v.pos,v.id,v.ref,v.alt)print(v.info)w=Variant(id='rs8056814',reference_build='GRCh37')print(w.chrom,w.pos)x=Variant('chr16',75218429)print(x)help(Variant)
GeneralizedVariant
类的对象类似,但是每个属性
可能有多个项的元组。例如,一个rsid可以映射
两组坐标。
gv=GeneralizedVariant(id='rs8056814')print(gv.chrom,gv.pos,gv.id,gv.ref,gv.alt)