快速修剪序列到其内部转录间隔区(its)区域
itsxpress的Python项目详细描述
引文
里弗斯AR、韦伯KC、加德纳TG等。itsXpress:快速修剪的软件 具有标记基因质量分数的内转录间隔序列 分析[第1版;裁判员:等待同行评审]。F1000研究2018,7:1418 (doi:10.12688/f1000research.15704.1)
简介
内部转录间隔区是高度保守的 rrna的亚单位(ssu)和rrna的大亚单位(lsu)。在真核生物中它包含 5.8s基因和两个可变长度间隔区。在扩增子测序研究中 修剪保守区域(SSU、5、8S或LSU)的常见做法。Bengtsson-Palme et al. (2013)发布软件软件包ITSx来执行此操作。
它的xpress旨在支持调用精确的序列变量,而不是OTUs。 这种新的序列错误修正方法需要来自 序列,所以每个输入序列都必须被修剪。itsXpress通过 获取fastq数据,反复制序列,然后识别开始和停止 使用hmmsearch的站点。分析结果并返回修剪过的文件。ITS 1, 可选择its2或包括5.8srrna基因在内的整个its区。快车 使用itsx的hmm模型,因此结果是可比较的。
它的Xpress也可用作QIIME2 Plugin
安装
它的Xpress可以从以下位置安装:
- bioconda:(首选方法,因为它处理依赖关系):
conda install itsxpress
pip install itsxpress
git clone https://github.com/USDA-ARS-GBRU/itsxpress.git
依赖关系
该软件需要vsearch、bbtools、hmmer>;=3.1b和biopython。生物保密 为您处理这个问题,所以它是首选的安装方法。
用法
-h, --help | Show this help message and exit. |
--fastq | A ^{tt1}$, ^{tt2}$, ^{tt3}$ or ^{tt4}$ file. Interleaved or not. Required. |
--single_end | A flag to specify that the fastq file is single-ended (not paired). single-ended (not paired). Default is false. |
--fastq2 | A ^{tt1}$, ^{tt2}$, ^{tt3}$ or ^{tt4}$ file representing read 2 if present, optional. |
--outfile | The trimmed FASTQ file, if it ends in ^{tt9}$ it will be gzipped. |
--outfile2 | The trimmed FASTQ read 2 file, if it ends in ^{tt9}$ it will be gzipped. If used, reads will be retuned as unmerged pairs rather than than merged. |
--tempdir | Specify the temp file directory. Default is None. |
--keeptemp | Should intermediate files be kept? Default is false. |
--region | Options : {ITS2, ITS1, ALL} |
--taxa | Select the taxonomic group sequenced: {Alveolata, Bryophyta, Bacillariophyta, Amoebozoa, Euglenozoa, Fungi, Chlorophyta, Rhodophyta, Phaeophyceae, Marchantiophyta, Metazoa, Oomycota, Haptophyceae, Raphidophyceae, Rhizaria, Synurophyceae, Tracheophyta, Eustigmatophyceae, All}. Default Fungi. |
--cluster_id | The percent identity for clustering reads range [0.98-1.0], set to 1 for exact dereplication. Default 0.995. |
--log | Log file. Default is ITSxpress.log. |
--threads | Number of processor threads to use. Default is 1. |
示例
用例1:使用 使用两个cpu线程正向和反向gzip fastq文件。返回一个合并文件以在Deblur中使用。
itsxpress --fastq r1.fastq.gz --fastq2 r2.fastq.gz --region ITS2 \ --taxa Fungi --log logfile.txt --outfile trimmed_reads.fastq.gz --threads 2
它的xpress可以接受gzip或ungzip的fastq文件,它可以编写gzip或 解压fastq文件。它希望fastq文件以.fq、.fastq、.fq.gz或fastq.gz结尾。
用例2:使用 使用两个cpu线程正向和反向gzip fastq文件。向前退 并反向读取用于DADA2的文件。
itsxpress --fastq r1.fastq.gz --fastq2 r2.fastq.gz --region ITS2 \ --taxa Fungi --log logfile.txt --outfile trimmed_reads.fastq.gz --threads 2
它的xpress可以接受gzip或ungzip的fastq文件,它可以编写gzip或 解压fastq文件。它希望fastq文件以.fq、.fastq、.fq.gz或fastq.gz结尾。
用例3:使用 使用两个cpu线程的交错gzip fastq文件。返回一个合并文件以在Deblur中使用。
itsxpress --fastq interleaved.fastq.gz --region ITS2 --taxa Fungi \ --log logfile.txt --outfile trimmed_reads.fastq.gz --threads 2
用例4:使用 使用两个cpu线程的单端gzip fastq文件。
itsxpress --fastq single-end.fastq.gz --single_end --region ITS2 --taxa Fungi \ --log logfile.txt --outfile trimmed_reads.fastq.gz --threads 2
单端数据不太常见,可能来自已读取的数据集 已经合并。
用例5:使用 使用40个CPU线程的交错gzip fastq文件。
itsxpress --fastq interleaved.fastq.gz --region ITS1 --taxa Alveolata \ --log logfile.txt --outfile trimmed_reads.fastq.gz --threads 40
许可证信息
这个软件是美国农业部的, 农业研究服务,并在创新共享CC0下发布 公共域属性。