来自FASTQ文件的Denovo程序集

sequana-denovo的Python项目详细描述


这是来自Sequana项目的denovo管道

Overview:a de-novo assembly pipeline for short-read sequencing data
Input:A set of FastQ files
Output:Fasta, VCF, HTML report
Status:production
Citation:Cokelaer et al, (2017), ‘Sequana’: a Set of Snakemake NGS pipelines, Journal of Open Source Software, 2(16), 352, JOSS DOI doi:10.21105/joss.00352

安装

必须先安装Seguana:

pip install sequana

然后,只需安装以下软件包:

^{pr2}$

使用

sequana_pipelines_denovo --help
sequana_pipelines_denovo --input-directory DATAPATH

这将创建一个包含管道和配置文件的目录。然后你需要 要执行管道:

cd denovo
sh denovo.sh  # for a local run

这是一条蛇形管道。如果你熟悉蛇咬,你可以 检索管道本身及其配置文件,然后使用特定参数自行执行管道:

snakemake -s denovo.rules -c config.yaml --cores 4 --stats stats.txt

或者使用sequanix接口。在

要求

此管道需要以下可执行文件:

  • 黑桃
  • 巴斯科
  • bwa公司
  • 高棉语:没有称为kmher的可执行文件,而是一组可执行文件(.例如,normalize by-中值.py)在
  • 弗里贝耶斯
  • 皮卡德
  • 普罗卡
  • 奎斯特
  • 黑桃
  • 桑班巴
  • samtools公司
https://raw.githubusercontent.com/sequana/sequana_denovo/master/sequana_pipelines/denovo/dag.png

细节

Snakemakede novo组装流水线致力于小型基因组类细菌。 它基于SPAdes。 汇编程序更正读取,然后使用不同大小的kmer进行组装。 如果设置了正确的选项,黑桃将更正中的不匹配和短索引 使用BWA的contigs。在

测序深度可以用khmer标准化。 数字归一化将现有的高覆盖区域转换为高斯分布 分布集中在较低的测序深度。换句话说, 200倍覆盖的基因组区域将在正常化后以20倍覆盖。因此, 一些来自高覆盖区域的读取被丢弃以减少数据量。 虽然覆盖范围大大减少,但装配也会一样好或更好 而不是组装不规范的数据。此外,黑桃与归一化数据 与不进行数字标准化相比,速度显著加快,内存消耗更少。 最重要的是,高棉人这样做是在固定的,低内存,没有任何参考 需要顺序。在

管道使用多种工具和方法评估组件。第一个 是一种基因组组装工具 评估和比较。它提供了一个包含有用指标的HTML报告,比如 N50,数量不匹配等等。此外,它还创建了一个contigs的查看器 称为Icarus。在

第二种方法是用Sequona覆盖和 检测不匹配和短索引 Freebayes。在

最后一种但不是最不重要的方法是BUSCO,即 为基因组组装的评估提供定量的方法,基于 从近通用单拷贝同源序列中筛选出的基因含量期望值 来自OrthoDB。在

^{tb2}$

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在Java中使用工厂设计模式   解析服务器安全性的java最佳实践   java如何解决由于某种原因导致的执行失败?   关于Servlet的java   如何在java中生成一个大的(30MB+)xml文件?   匿名类重写与传递接口,用于在Java中设计回调   java jar从运行时开始。getRuntime()。exec()比从命令行运行的时间长   java Ant脚本排除文件夹(某些文件除外)   java在Windows 10计算机上运行时遇到Maven错误   java Hibernate在同一个表中级联   java PayPal API设置返回URL   java如何在选项卡的右侧显示关闭按钮   当按下Jmenu按钮时,使用java操作侦听器退出程序