simlord是一个读取模拟器,用于从第三代测序中进行长时间读取,目前专注于太平洋生物科学smrt错误模型。

simlord的Python项目详细描述


Simlord是第三代测序读取的读取模拟器, 目前主要研究太平洋生物科学SMRT误差模型。

从提供的或随机的 生成的引用序列。

功能

  • 引用可以从fasta文件中读取,也可以随机生成 具有给定的GC内容。它可以由几个染色体组成 结构在图纸读取时得到尊重。(基因组模拟 重新安排可在后期进行。)
  • 读取长度可以通过四种方式确定:从 对数正态分布(典型的基因组DNA),从 现有的FASQ文件(典型的RNA),从一个文本文件中取样 使用整数(RNA),或使用固定长度
  • 质量值和通过次数取决于片段长度。
  • 如果子读取错误概率是根据数字修改的 通过次数
  • 以fastq格式读取输出,以sam格式对齐

系统要求

我们建议使用 miniconda和 为Simlord创造环境

# Create and activate a new environment called simlord
conda create -n simlord python=3 pip numpy scipy cython
source activate simlord

# Install packages that are not available with conda from pip
pip install pysam
pip install dinopy
pip install simlord

# You now have a 'simlord' script; try it:
simlord --help

# In case of a new version update as follows:
pip install simlord --upgrade

# To switch back to your normal environment, use
source deactivate

平台支架

simlord是一个纯python程序。这意味着它在任何 python 3和其他包所针对的操作系统(os) 可用。

示例用法

示例1:模拟引用ref.fasta的10000次读取,使用 模拟和存储读取的默认选项myreads.fastq 以及myreads.sam中的对齐方式。

simlord  --read-reference ref.fasta -n 10000  myreads

示例2:生成一个引用,其中包含1000万个基GC内容0.6 (即C和G的概率均为0.3;因此A和G的概率均为0.2 和t),将引用存储为random.fasta,并模拟10000次读取 使用默认选项时,存储读取为myreads.fastq,不存储 对准。

simlord --generate-reference 0.6 10000000 --save-reference random.fasta\
        -n 10000 --no-sam  myreads

示例3:使用 固定读取长度5000和自定义子读取错误概率(12% 插入,12%删除,2%替换)。与以前一样,保存读取为 myreads.fastqmyreads.sam

simlord --read-reference reference.fasta  -n 10000 -fl 5000\
        -pi 0.12 -pd 0.12 -ps 0.02  myreads

可以找到参数的完整列表及其文档here

上次更改

1.0.2版(2017-03-17)

新功能

  • 绘制染色体,使其与长度加权,而不是均匀分布。这将导致染色体上的平均分布读覆盖率。以前每个染色体的概率相等的行为可以通过参数-一致的染色体概率来激活。
  • 参数-覆盖率:根据整个参考基因组的期望读取覆盖率来确定读取次数。
  • 参数–不带ns:sample只从完全不带ns的区域读取数据。

警告:根据不带ns的contigs的大小和预期的readlength,使用–不带ns可能导致有偏的读取覆盖率。

bugs已修复

  • 由于删除后的错误扩展,雪茄字符串有时错误地计算了最后一个匹配项。

1.0.1版(2017-01-03)

bugs已修复

  • 删除参数处的Nargs=1–更改参数时导致错误的概率阈值。

1.0.0版(2016-07-13)

api更改

  • 将sam文件中的seq更改为反向补码读取,而不是映射到引用的反向补码的原始读取。

示例:

reference       ATCG     read   CAAT
true alignment  ||X|
                ATTG

Before: SEQ CAAT and CIGAR string 2=1X1=
Now:    SEQ ATTG and CIGAR string 2=1X1=

许可证

simlord是开源的,并在MIT License下获得许可。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何使用从PreparedStatement返回的RowId。getGeneratedKeys()?   selenium chrome驱动程序中下一个网站url的java空白页   java如何将参数化匿名类转换为lambda?   java JUnit在AfterClass上获取测试结果   java将动态XML/JSON内容与静态标记化负载进行比较,并检索标记值   java共享一个需要数据持久性的项目[数据库]   java在调用方法时获取意外的参数类型。getParameterTypes()   java如何用jdbc在swing中用另一个字段替换外键?   需要java Jersey Tomcat CDI依赖项解释   java如何生成UML图   java如何编写Jersey rest服务可以通过给定的spring代码访问   SpringMaven存储库管理器Nexus与Java依赖项的Artifactory   java将包从另一个项目导入eclipse中的当前项目   加密Java使用密码加密文件