“genbank基因组的自动化质量控制。”

GenBankQC的Python项目详细描述


https://api.travis-ci.org/andrewsanchez/GenBankQC.svg?branch=master

genbank质量控制

完整的文档保存在genbank-qc.readthedocs.io。这是一项正在进行的工作。

genbankqc致力于解决公共数据库的质量控制问题,例如国家生物技术信息中心的GenBank。我们的目标是提供一个简单、高效、自动化的解决方案来评估基因组的质量。

Please note that GenbankQC is currently in alpha. As a proof of concept for a specific use case, it currently has limitations that users should be aware of. If there is interest, we will address the issues to make it more convenient to use. Please see caveats for more details.

功能

  • 标签/注释独立质量控制基于:
    • 简单指标
    • 利用MASH
    • 估计基因组距离
  • 标记潜在的异常值,以排除它们对管道的污染

genbankqc工作流程包括以下步骤:

  1. 基于以下指标为每个基因组生成统计信息:
    • 未知碱基数
    • 控件数
    • 装配尺寸
    • 与其他基因组相比的平均MASH距离
  2. 基于这些统计数据标记潜在异常值:
    • 包含一定数量以上未知碱基的标记基因组。
    • 基于中位数绝对偏差将基因组标记在范围之外。
      • 适用于容器数量和装配尺寸
    • 标记距离大于绝对偏差中值上端的基因组。
  3. 用彩色编码树可视化结果

使用量

genbankqc /path/to/genomes
open /path/to/genomes/Escherichia_coli/qc/200_3.0_3.0_3.0/tree.svg

安装

如果您还没有一个功能性的conda环境,请下载并安装Miniconda

conda create -n genbankqc -c etetoolkit -c biocore pip ete3 scikit-bio

source activate genbankqc

pip install genbankqc

注意事项

对于文件名有一些任意的硬编码限制。这是因为该项目最初是作为ncbi工具包(NCBITK)的一部分开始的,我们使用该工具包从ncbi下载基因组。ncbitk生成genbankqc当前期望的特定目录结构和文件命名方案。

如果您希望使用genbankqc而不使用ncbitk,那么所需的只是文件名与python正则表达式re.compile('.*(GCA_\d+\.\d.*)(.fasta)')匹配。您可以按照我在pythex.org上的示例快速测试这一点。

https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java初学者Swing递归   java将hashmap转换为JSON字符串   cURL和java字符串变量出错   java为什么不将其视为多重继承,而所有类都首先从对象类扩展,然后再扩展其他类   java如何在eclipse中添加插件依赖项   使用java从Ms word表中提取图片   java实现可比较的接口   验证生成的事务时发生java错误。木栓   java@OneToMany和不同的主键   java Jaxb2在相对路径上找不到xsd架构   java客户端C++服务器数据发送/接收问题   javajaxws-webservice。改变节点结构   java如何将带有特殊字符的字符串转换为另一个转义字符串   netbeans如何链接JGraph传感器和Java邮件?   java如何在单个tomcat中检查每个web应用程序的内存大小?   客户端图形QLJava类生成器