“genbank基因组的自动化质量控制。”
GenBankQC的Python项目详细描述
genbank质量控制
完整的文档保存在genbank-qc.readthedocs.io。这是一项正在进行的工作。
genbankqc致力于解决公共数据库的质量控制问题,例如国家生物技术信息中心的GenBank。我们的目标是提供一个简单、高效、自动化的解决方案来评估基因组的质量。
注
Please note that GenbankQC is currently in alpha. As a proof of concept for a specific use case, it currently has limitations that users should be aware of. If there is interest, we will address the issues to make it more convenient to use. Please see caveats for more details.
功能
- 标签/注释独立质量控制基于:
- 简单指标
- 利用MASH 估计基因组距离
- 标记潜在的异常值,以排除它们对管道的污染
genbankqc工作流程包括以下步骤:
- 基于以下指标为每个基因组生成统计信息:
- 未知碱基数
- 控件数
- 装配尺寸
- 与其他基因组相比的平均MASH距离
- 基于这些统计数据标记潜在异常值:
- 包含一定数量以上未知碱基的标记基因组。
- 基于中位数绝对偏差将基因组标记在范围之外。
- 适用于容器数量和装配尺寸
- 标记距离大于绝对偏差中值上端的基因组。
- 用彩色编码树可视化结果
使用量
genbankqc /path/to/genomes open /path/to/genomes/Escherichia_coli/qc/200_3.0_3.0_3.0/tree.svg
安装
如果您还没有一个功能性的conda环境,请下载并安装Miniconda。
conda create -n genbankqc -c etetoolkit -c biocore pip ete3 scikit-bio source activate genbankqc pip install genbankqc
注意事项
对于文件名有一些任意的硬编码限制。这是因为该项目最初是作为ncbi工具包(NCBITK)的一部分开始的,我们使用该工具包从ncbi下载基因组。ncbitk生成genbankqc当前期望的特定目录结构和文件命名方案。
如果您希望使用genbankqc而不使用ncbitk,那么所需的只是文件名与python正则表达式re.compile('.*(GCA_\d+\.\d.*)(.fasta)')匹配。您可以按照我在pythex.org上的示例快速测试这一点。