稀疏索引将公共数据库中的基因组引用到层次聚类中,并使用它来预测元基因组读取的起源。
meta-sparse的Python项目详细描述
稀疏索引>100000个参考基因组在公共数据库中的层次聚类,并用它来预测宏基因组阅读的起源。
安装
UNIX上的稀疏运行,需要Python版本2.7(Python 3 .x支持正在开发中)
系统模块(ubuntu 16.04):
- 点
- 格夫特兰
- llvm
- libncurses5开发
- 克
- xvfb run(用于麦芽,可选)
第三方软件:
- samtools(>;=1.2)
- 捣碎(>;=1.1.1)
- 蝴蝶结2(>;=2.3.2)
- 麦芽(>;=0.4.0)(可选)
有关python模块依赖项,请参见requirements.txt。
通过PIP安装[建议]
pip install meta-sparse
从源代码(ubuntu)安装
sudo apt-get update
sudo apt-get install gfortran llvm libncurses5-dev cmake python-pip samtools bowtie2
git clone https://github.com/zheminzhou/SPARSE
cd SPARSE/EM && make
pip install -r requirements.txt
更新稀疏您可以使用pip:
pip install --upgrade meta-sparse
如果从GITHUB安装稀疏,则移动到安装目录并拉最新版本:
cd SPARSE
git pull
快速启动
有关完整文档,请参见http://sparse.readthedocs.io/en/latest/。
- 下载参考数据库
我们提供一个基于refseq(日期:2018年5月19日)的预编译数据库,可在http://enterobase.warwick.ac.uk/sparse/refseq_20180519.tar.gz下载
是的。可以通过运行以下命令下载和解包数据库:
curl -o refseq_20180519.tar.gz http://enterobase.warwick.ac.uk/sparse/refseq_20180519.tar.gz
tar -vxzf refseq_20180519.tar.gz
这个预编译的数据库约为350GB,包含四个默认的映射数据库,可以在下一步中指定:代表性数据库、亚群数据库、病毒数据库、真核数据库。
要更新数据库或构建Costum数据库,请参阅完整文档。
- 预测读取来源
以下命令将根据指定的映射数据库映射和计算两个fastq文件中的所有读取。
sparse predict --dbname refseq_20180519 --mapDB representative,subpopulation,Virus,Eukaryota --r1 read1.fq.gz --r2 read2.fq.gz --workspace <workspace_name>
对于单端读取,只需要指定--r1。所有输出文件都存储在相应的工作区中。
- 创建报表
sparse report <workspace_name>
报告将存储在<;workspace\u name>;/profile.txt中
- 提取特定于引用的读操作
下面的命令提取特定于提供的引用id的所有读取,可以在步骤2的输出中找到。
sparse extract --dbname refseq_20171014 --workspace <workspace_name> --ref_id <comma delimited indices>
引文
《稀疏》发表于《计算分子生物学研究》会议上。Zhemin Zhou,Nina Luhmann,Nabil Fareed Alikhan,Christopher Quince,Mark Achtman,“使用代表性参考基因组从亚基因组测序中准确重建微生物菌株”,建议2018:计算分子生物学研究,pp 225-240。doi:https://doi.org/10.1007/978-3-319-89929-9_15
一个预印版本的手稿也可以在BioXIV中访问:^ {A8}
推荐PyPI第三方库
您可以使用pip:
pip install --upgrade meta-sparse
如果从GITHUB安装稀疏,则移动到安装目录并拉最新版本:
cd SPARSE
git pull
快速启动
有关完整文档,请参见http://sparse.readthedocs.io/en/latest/。
- 下载参考数据库
我们提供一个基于refseq(日期:2018年5月19日)的预编译数据库,可在http://enterobase.warwick.ac.uk/sparse/refseq_20180519.tar.gz下载 是的。可以通过运行以下命令下载和解包数据库:
curl -o refseq_20180519.tar.gz http://enterobase.warwick.ac.uk/sparse/refseq_20180519.tar.gz
tar -vxzf refseq_20180519.tar.gz
这个预编译的数据库约为350GB,包含四个默认的映射数据库,可以在下一步中指定:代表性数据库、亚群数据库、病毒数据库、真核数据库。
要更新数据库或构建Costum数据库,请参阅完整文档。
- 预测读取来源
以下命令将根据指定的映射数据库映射和计算两个fastq文件中的所有读取。
sparse predict --dbname refseq_20180519 --mapDB representative,subpopulation,Virus,Eukaryota --r1 read1.fq.gz --r2 read2.fq.gz --workspace <workspace_name>
对于单端读取,只需要指定--r1。所有输出文件都存储在相应的工作区中。
- 创建报表
sparse report <workspace_name>
报告将存储在<;workspace\u name>;/profile.txt中
- 提取特定于引用的读操作
下面的命令提取特定于提供的引用id的所有读取,可以在步骤2的输出中找到。
sparse extract --dbname refseq_20171014 --workspace <workspace_name> --ref_id <comma delimited indices>
引文
《稀疏》发表于《计算分子生物学研究》会议上。Zhemin Zhou,Nina Luhmann,Nabil Fareed Alikhan,Christopher Quince,Mark Achtman,“使用代表性参考基因组从亚基因组测序中准确重建微生物菌株”,建议2018:计算分子生物学研究,pp 225-240。doi:https://doi.org/10.1007/978-3-319-89929-9_15
一个预印版本的手稿也可以在BioXIV中访问:^ {A8}