来自FASTQ文件的Denovo程序集
sequana-denovo的Python项目详细描述
这是来自Sequana项目的denovo管道
Overview: | a de-novo assembly pipeline for short-read sequencing data |
---|---|
Input: | A set of FastQ files |
Output: | Fasta, VCF, HTML report |
Status: | production |
Citation: | Cokelaer et al, (2017), ‘Sequana’: a Set of Snakemake NGS pipelines, Journal of Open Source Software, 2(16), 352, JOSS DOI doi:10.21105/joss.00352 |
安装
必须先安装Seguana:
pip install sequana
然后,只需安装以下软件包:
^{pr2}$使用
sequana_pipelines_denovo --help sequana_pipelines_denovo --input-directory DATAPATH
这将创建一个包含管道和配置文件的目录。然后你需要 要执行管道:
cd denovo sh denovo.sh # for a local run
这是一条蛇形管道。如果你熟悉蛇咬,你可以 检索管道本身及其配置文件,然后使用特定参数自行执行管道:
snakemake -s denovo.rules -c config.yaml --cores 4 --stats stats.txt
或者使用sequanix接口。在
要求
此管道需要以下可执行文件:
- 黑桃
- 巴斯科
- bwa公司
- 高棉语:没有称为kmher的可执行文件,而是一组可执行文件(.例如,normalize by-中值.py)在
- 弗里贝耶斯
- 皮卡德
- 普罗卡
- 奎斯特
- 黑桃
- 桑班巴
- samtools公司
细节
Snakemakede novo组装流水线致力于小型基因组类细菌。 它基于SPAdes。 汇编程序更正读取,然后使用不同大小的kmer进行组装。 如果设置了正确的选项,黑桃将更正中的不匹配和短索引 使用BWA的contigs。在
测序深度可以用khmer标准化。 数字归一化将现有的高覆盖区域转换为高斯分布 分布集中在较低的测序深度。换句话说, 200倍覆盖的基因组区域将在正常化后以20倍覆盖。因此, 一些来自高覆盖区域的读取被丢弃以减少数据量。 虽然覆盖范围大大减少,但装配也会一样好或更好 而不是组装不规范的数据。此外,黑桃与归一化数据 与不进行数字标准化相比,速度显著加快,内存消耗更少。 最重要的是,高棉人这样做是在固定的,低内存,没有任何参考 需要顺序。在
管道使用多种工具和方法评估组件。第一个 是一种基因组组装工具 评估和比较。它提供了一个包含有用指标的HTML报告,比如 N50,数量不匹配等等。此外,它还创建了一个contigs的查看器 称为Icarus。在
第二种方法是用Sequona覆盖和 检测不匹配和短索引 Freebayes。在
最后一种但不是最不重要的方法是BUSCO,即 为基因组组装的评估提供定量的方法,基于 从近通用单拷贝同源序列中筛选出的基因含量期望值 来自OrthoDB。在
^{tb2}$- 项目
标签: