simlord是一个读取模拟器,用于从第三代测序中进行长时间读取,目前专注于太平洋生物科学smrt错误模型。
simlord的Python项目详细描述
Simlord是第三代测序读取的读取模拟器, 目前主要研究太平洋生物科学SMRT误差模型。
从提供的或随机的 生成的引用序列。
功能
- 引用可以从fasta文件中读取,也可以随机生成 具有给定的GC内容。它可以由几个染色体组成 结构在图纸读取时得到尊重。(基因组模拟 重新安排可在后期进行。)
- 读取长度可以通过四种方式确定:从 对数正态分布(典型的基因组DNA),从 现有的FASQ文件(典型的RNA),从一个文本文件中取样 使用整数(RNA),或使用固定长度
- 质量值和通过次数取决于片段长度。
- 如果子读取错误概率是根据数字修改的 通过次数
- 以fastq格式读取输出,以sam格式对齐
系统要求
我们建议使用 miniconda和 为Simlord创造环境
# Create and activate a new environment called simlord conda create -n simlord python=3 pip numpy scipy cython source activate simlord # Install packages that are not available with conda from pip pip install pysam pip install dinopy pip install simlord # You now have a 'simlord' script; try it: simlord --help # In case of a new version update as follows: pip install simlord --upgrade # To switch back to your normal environment, use source deactivate
平台支架
simlord是一个纯python程序。这意味着它在任何 python 3和其他包所针对的操作系统(os) 可用。
示例用法
示例1:模拟引用ref.fasta的10000次读取,使用 模拟和存储读取的默认选项myreads.fastq 以及myreads.sam中的对齐方式。
simlord --read-reference ref.fasta -n 10000 myreads
示例2:生成一个引用,其中包含1000万个基GC内容0.6 (即C和G的概率均为0.3;因此A和G的概率均为0.2 和t),将引用存储为random.fasta,并模拟10000次读取 使用默认选项时,存储读取为myreads.fastq,不存储 对准。
simlord --generate-reference 0.6 10000000 --save-reference random.fasta\ -n 10000 --no-sam myreads
示例3:使用 固定读取长度5000和自定义子读取错误概率(12% 插入,12%删除,2%替换)。与以前一样,保存读取为 myreads.fastq和myreads.sam。
simlord --read-reference reference.fasta -n 10000 -fl 5000\ -pi 0.12 -pd 0.12 -ps 0.02 myreads
可以找到参数的完整列表及其文档here。
上次更改
1.0.2版(2017-03-17)
新功能
- 绘制染色体,使其与长度加权,而不是均匀分布。这将导致染色体上的平均分布读覆盖率。以前每个染色体的概率相等的行为可以通过参数-一致的染色体概率来激活。
- 参数-覆盖率:根据整个参考基因组的期望读取覆盖率来确定读取次数。
- 参数–不带ns:sample只从完全不带ns的区域读取数据。
警告:根据不带ns的contigs的大小和预期的readlength,使用–不带ns可能导致有偏的读取覆盖率。
bugs已修复
- 由于删除后的错误扩展,雪茄字符串有时错误地计算了最后一个匹配项。
1.0.1版(2017-01-03)
bugs已修复
- 删除参数处的Nargs=1–更改参数时导致错误的概率阈值。
1.0.0版(2016-07-13)
api更改
- 将sam文件中的seq更改为反向补码读取,而不是映射到引用的反向补码的原始读取。
示例:
reference ATCG read CAAT true alignment ||X| ATTG Before: SEQ CAAT and CIGAR string 2=1X1= Now: SEQ ATTG and CIGAR string 2=1X1=
许可证
simlord是开源的,并在MIT License下获得许可。