这是我们为gwas做的小项目
PAC-tool的Python项目详细描述
概要
pactool是一个对snp变体的控制/病例数据进行gwas分析的程序,并使用python 3实现。
-所有选定snp的每个变体的等位基因频率统一的对照和病例数据集
-两个选择的snp之间的连锁不平衡性评估(计算d'和r平方)
-对所提供的数据集进行关联测试,可选生成曼哈顿图和qq图
-所选snp的信息检索,来自Ensembl变体效果预测数据库。
pactool限制:
-当前版本的pactool不支持对位于不同染色体上的变体进行分析。
请确保数据集中的所有SNP都位于同一个位置染色体。
它可以应用于各种基因组数据集。
输入文件由行和列组成,其中每一行代表一个snp,这些列包含以下信息:
column_1:snp_id
-例如snp_0
-每个snp
column_2:rs_id
-例如rs6054257
-或者基因组坐标,用pefix表示染色体,例如20-9150
columns_3:snp_坐标基于ncbi构建36
-例如9150
column_4:reference等位基因
-用核苷酸基表示,例如c
column_5:alternative等位基因
-用核苷酸表示碱基
-例如
-10 0--->;ref ref,参考等位基因纯合子
-0 1 0--->;ref alt,杂合子
-0 1--->;alt alt,替代等位基因的纯合子作为上述输入文件的独立文件格式。
而其余的列则保存来自各个统计测试和分析。
https://pypi.python.org/pypi/pactool
3,并包含所有首选参数。
每次都必须提供其中三个参数,否则您将收到错误消息。
请确保包含以下参数:
-controls_file表示包含控制示例的输入文件
-cases_file表示包含case samples的输入文件
-output指定每个输出文件的前缀
还可以包括以下可选参数,以及带有snp_代码(每行一个)的文件,以执行相应的操作:
-keep_snps仅保留所提供文件中指定的snps用于分析。
-remove_snps从以下分析中删除所提供文件中指定的snps。
上述操作也可以应用于样本(给定文件中的行应为例如。控制5或案例10):
-保留样本仅用于分析所提供文件中指定的控制/案例样本。
-移除样本从进一步分析中移除所提供文件中指定的控制/案例样本。
操作时,可选择以下分析选项:
-等位基因频率计算对照样品中参考和替代变体的频率,案例样本及其总频率。
输出文件"output"。频率有7列:snp_code ref_freq_control alt_freq_control ref_freq_cases alt_freq_cases ref_freq_total alt_freq_total
-hwe,-hwe计算hardy-weinberg平衡和相应的p值。
输出文件"output"。hwe有3列:snp_code hwe_statistic p-value
-ld snp1 snp2估计如果两个给定的snp处于连锁不平衡状态,通过计算d'和r平方统计量。snp1和snp2是必需的snp_代码。
将文件'output'.ld与4个列组合起来:snp1_code snp2_code d'r-squared
-association_test对每个snp执行基因型关联测试,并计算优势比(r=参考、a=替代或控制情况)
输出文件"output"。与8列的关联:snp_code locket ref alt p-value或_rr_ra或_rr_a a或_ra_aa
-曼哈顿为关联测试的p值绘制曼哈顿图。
仅当给定-association_test参数时才能使用。
-qq plot为关联测试的p值绘制qq图。
只能用于-给出关联测试参数
-get_info snp检索有关snp代码为snp的变量的信息。打印一个json格式的输出,其中包含从ensembl的vep数据库中获得的所有信息。
使用以下文件构建和测试:
gwas.cases.gen
,可从以下链接下载:
向Uocrete生物信息学理学硕士"Bio-102编程入门"课程的团队致辞,赫拉克利翁。
Chatzipantsio(chatzipantsio@gmail.com)
Panayiotis Linardos(mondestrasz@gmail.com)
Paschalis Natsidis(pnatsidis@hotmail.com)
任何错误报告,投稿或一般评论请使用提供的电子邮件与任何作者联系地址。
链接:
https://opensource.org/license/mit
pactool是一个对snp变体的控制/病例数据进行gwas分析的程序,并使用python 3实现。
-两个选择的snp之间的连锁不平衡性评估(计算d'和r平方)
-对所提供的数据集进行关联测试,可选生成曼哈顿图和qq图
-所选snp的信息检索,来自Ensembl变体效果预测数据库。
pactool限制:
-当前版本的pactool不支持对位于不同染色体上的变体进行分析。
请确保数据集中的所有SNP都位于同一个位置染色体。
它可以应用于各种基因组数据集。
输入文件由行和列组成,其中每一行代表一个snp,这些列包含以下信息:
column_1:snp_id
-例如snp_0
-每个snp
column_2:rs_id
-例如rs6054257
-或者基因组坐标,用pefix表示染色体,例如20-9150
columns_3:snp_坐标基于ncbi构建36
-例如9150
column_4:reference等位基因
-用核苷酸基表示,例如c
column_5:alternative等位基因
-用核苷酸表示碱基
-例如
-10 0--->;ref ref,参考等位基因纯合子
-0 1 0--->;ref alt,杂合子
-0 1--->;alt alt,替代等位基因的纯合子作为上述输入文件的独立文件格式。
而其余的列则保存来自各个统计测试和分析。
https://pypi.python.org/pypi/pactool
3,并包含所有首选参数。
每次都必须提供其中三个参数,否则您将收到错误消息。
请确保包含以下参数:
-controls_file表示包含控制示例的输入文件
-cases_file表示包含case samples的输入文件
-output指定每个输出文件的前缀
还可以包括以下可选参数,以及带有snp_代码(每行一个)的文件,以执行相应的操作:
-keep_snps仅保留所提供文件中指定的snps用于分析。
-remove_snps从以下分析中删除所提供文件中指定的snps。
上述操作也可以应用于样本(给定文件中的行应为例如。控制5或案例10):
-保留样本仅用于分析所提供文件中指定的控制/案例样本。
-移除样本从进一步分析中移除所提供文件中指定的控制/案例样本。
操作时,可选择以下分析选项:
-等位基因频率计算对照样品中参考和替代变体的频率,案例样本及其总频率。
输出文件"output"。频率有7列:snp_code ref_freq_control alt_freq_control ref_freq_cases alt_freq_cases ref_freq_total alt_freq_total
-hwe,-hwe计算hardy-weinberg平衡和相应的p值。
输出文件"output"。hwe有3列:snp_code hwe_statistic p-value
-ld snp1 snp2估计如果两个给定的snp处于连锁不平衡状态,通过计算d'和r平方统计量。snp1和snp2是必需的snp_代码。
将文件'output'.ld与4个列组合起来:snp1_code snp2_code d'r-squared
-association_test对每个snp执行基因型关联测试,并计算优势比(r=参考、a=替代或控制情况)
输出文件"output"。与8列的关联:snp_code locket ref alt p-value或_rr_ra或_rr_a a或_ra_aa
-曼哈顿为关联测试的p值绘制曼哈顿图。
仅当给定-association_test参数时才能使用。
-qq plot为关联测试的p值绘制qq图。
只能用于-给出关联测试参数
-get_info snp检索有关snp代码为snp的变量的信息。打印一个json格式的输出,其中包含从ensembl的vep数据库中获得的所有信息。
使用以下文件构建和测试:
,可从以下链接下载:
向Uocrete生物信息学理学硕士"Bio-102编程入门"课程的团队致辞,赫拉克利翁。
Chatzipantsio(chatzipantsio@gmail.com)
Panayiotis Linardos(mondestrasz@gmail.com)
Paschalis Natsidis(pnatsidis@hotmail.com)
任何错误报告,投稿或一般评论请使用提供的电子邮件与任何作者联系地址。
链接:
https://opensource.org/license/mit