稀疏索引将公共数据库中的基因组引用到层次聚类中,并使用它来预测元基因组读取的起源。

meta-sparse的Python项目详细描述


利用代表性序列(稀疏)应变预测和分析

稀疏索引>100000个参考基因组在公共数据库中的层次聚类,并用它来预测宏基因组阅读的起源。

Build StatusLicense: GPL v3Docs Status

安装

UNIX上的稀疏运行,需要Python版本2.7(Python 3 .x支持正在开发中)

系统模块(ubuntu 16.04):

  • 格夫特兰
  • llvm
  • libncurses5开发
  • xvfb run(用于麦芽,可选)

第三方软件:

  • samtools(>;=1.2)
  • 捣碎(>;=1.1.1)
  • 蝴蝶结2(>;=2.3.2)
  • 麦芽(>;=0.4.0)(可选)

有关python模块依赖项,请参见requirements.txt

通过PIP安装[建议]

pip install meta-sparse

从源代码(ubuntu)安装

sudo apt-get update
sudo apt-get install gfortran llvm libncurses5-dev cmake python-pip samtools bowtie2
git clone https://github.com/zheminzhou/SPARSE
cd SPARSE/EM && make
pip install -r requirements.txt 

更新稀疏

您可以使用pip:

pip install --upgrade meta-sparse

如果从GITHUB安装稀疏,则移动到安装目录并拉最新版本:

cd SPARSE
git pull

快速启动

有关完整文档,请参见http://sparse.readthedocs.io/en/latest/

  1. 下载参考数据库

我们提供一个基于refseq(日期:2018年5月19日)的预编译数据库,可在http://enterobase.warwick.ac.uk/sparse/refseq_20180519.tar.gz下载 是的。可以通过运行以下命令下载和解包数据库:

 curl -o refseq_20180519.tar.gz http://enterobase.warwick.ac.uk/sparse/refseq_20180519.tar.gz
 tar -vxzf refseq_20180519.tar.gz

这个预编译的数据库约为350GB,包含四个默认的映射数据库,可以在下一步中指定:代表性数据库、亚群数据库、病毒数据库、真核数据库。

要更新数据库或构建Costum数据库,请参阅完整文档。

  1. 预测读取来源

以下命令将根据指定的映射数据库映射和计算两个fastq文件中的所有读取。

sparse predict --dbname refseq_20180519 --mapDB representative,subpopulation,Virus,Eukaryota --r1 read1.fq.gz --r2 read2.fq.gz --workspace <workspace_name>

对于单端读取,只需要指定--r1。所有输出文件都存储在相应的工作区中。

  1. 创建报表
sparse report <workspace_name>

报告将存储在<;workspace\u name>;/profile.txt中

  1. 提取特定于引用的读操作

下面的命令提取特定于提供的引用id的所有读取,可以在步骤2的输出中找到。

sparse extract --dbname refseq_20171014 --workspace <workspace_name> --ref_id <comma delimited indices>

引文

《稀疏》发表于《计算分子生物学研究》会议上。

Zhemin Zhou,Nina Luhmann,Nabil Fareed Alikhan,Christopher Quince,Mark Achtman,“使用代表性参考基因组从亚基因组测序中准确重建微生物菌株”,建议2018:计算分子生物学研究,pp 225-240。doi:https://doi.org/10.1007/978-3-319-89929-9_15

一个预印版本的手稿也可以在BioXIV中访问:^ {A8}

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java既然Lucene 4.1中不存在TermEnum,如何从IndexReader中获取字段?   java在LinkedHashSet上的迭代比在ArrayList上的迭代要快   java无法在Android Studio中获得所有@override函数,如onStart、onResume   java的DateTimeFormatter比SimpleDateFormat更严格吗?以毫秒为单位分析日期   JavaSpring*servlet。Websphere服务器启动时未加载xml   java Fancytree selenium单击事件   java日期格式不一样   java无法在Android Studio上运行我的MQTT应用程序   c#计算两个集合的F检验   java JDialog不会显示在“设计”选项卡中   java如何在每个服务生页面上重新加载页面   java如何初始化包含一些对象的数组?   使用Datanucleus的java Amazon S3数据存储   Python的map函数是否有Java等价物?