tax2proteome基于给定的分类单元id和参考数据库以fasta格式创建特定于分类单元的数据库。
tax2proteome的Python项目详细描述
分类2蛋白质组
tax2proteome基于给定的分类单元id和参考数据库以fasta格式创建特定于分类单元的数据库。根据所选选项,该分类单元特定数据库包含以下所有fasta条目:
- 在系统发育树中给出分类单元id及其后代IDs
- 给定分类单元ID(选项--无后代)
- 给定的分类单元ID适应系统进化树中指定的级别及其后代分类单元ID(选项--级别)
- 在系统发育树中给定分类单元ID及其后代分类单元ID,直到级别为物种时,不包括级别较低的分类单元ID(选项--种)
从中读出匹配条目的数据库有:NCBI非冗余肽数据库、swissprot、uniprot或trembl数据库。此外,只要数据库的头包含“OX=NUMBER”形式的taxonid或包含NCBI/uniprot登录号,就可以使用用户定义的数据库。 使用未压缩的数据库可以大大加快程序的速度。在
入门
tax2proteome是python3命令行工具。它可以安装为pypi包或conda包(https.anaconda.org/jschmacht/tax2protome). 在
先决条件
Python3
安装
pip install tax2proteome
或者
^{pr2}$部署
tax2proteome是一个命令行工具,它的开头是:
python -m tax2proteome [options]
选项:
option | description | |
---|---|---|
-i | --input | TaxID input file: tabular file containing a column of NCBI taxon IDs. Columns tab separated. |
-c | --column | The column (zero-based) in the tabular file that contains Taxon IDs. Default = 0. |
-t | --taxon | NCBI taxon ID/s for database extraction. Multiple taxonIDs seperated by space. |
-d | --database | Database choice for analysis or for download. Choices: ncbi, uniprot, tremble, swissprot. |
-p | --path | Path to folder with all required databases: taxdump.tar.gz (for all databases), prot.accession2taxid or prot.accession2taxid.gz and pdb.accession2taxid.gz (for ncbi databases). Optional: peptide_database named: nr/nr.gz or uniprot_trembl.fasta/uniprot_trembl.fasta.gz or uniprot_sprot.fasta/uniprot_sprot.fasta.gz or uniprot.fasta./uniprot.fasta.gz |
-o | --out | File name and direction of the result taxon specified peptide database. Default = /taxon_specified_db_DATE/taxon_database.fasta |
-n | --dbname | Database name and direction. If database is in other folder than --path or name deviates from standard names |
-l | --level | Hierarchy level up in anchestral tree. Choices: species, section, genus, tribe, subfamily, family, superfamily, order, superorder, class, phylum, kingdom, superkingdom |
-r | --non_redundant | Makes the final database non redundant in regard to sequences, headers are concatenated. |
-z | --no_descendants | Select peptide database only by given taxon IDs, descendant taxons are excluded. |
-s | --species | Select peptide database only until taxonomic level "species", descendants from species are excluded. |
-u | --threads | Number of threads for using multiprocessing. Default = number of cores. |
-x | --reduce_header | Reduce the long headers of NCBI entries to accession IDs. Use only for NCBI databases. |
依赖项:
从NCBI参考数据库生成分类单元特定数据库所需的数据库
- 方案2税.gz/Protaccession2税
- PDB第2部分税.gz在
- 在taxdump.tar.gz在
- 在gz编号/编号
从uniprot/swissprot/trembl参考数据库生成分类单元特定数据库所需的数据库:
- 在taxdump.tar.gz在
- 在uniprot.fasta.gz公司/ 快速统一防护/uniprot公司_sprot.fasta.gz公司/uniprot公司_斯普罗特·法斯塔/uniprot公司_特伦布.法斯塔.gz/uniprot公司_特雷姆布法斯塔在
所有数据库文件应在同一天下载并存储在同一文件夹中。在
数据库
所有数据库应在与肽数据库相同的日期下载,以确保成功的登录匹配。 该数据库可以手动下载,也可以通过tax2protome下载,选项为database{ncbi,uniprot,trembl,swissprot}
^{tb2}$tax2proteome与数据库下载的使用:
所有需要的数据库都将下载到指定的路径(选项--path)。如果未指定,则默认使用名为databases\u DATE的文件夹。在
用法示例:
python -m tax2proteome -d uniprot -i path/to/input/taxon_ID_file -> new Folder databases_DATE with: taxdump.tar.gz, uniprot.fasta
python -m tax2proteome -i path/to/input/taxon_ID_file -> new Folder databases_DATE with: taxdump.tar.gz, uniprot.fasta
python -m tax2proteome -d ncbi -p path/to/my_new_databases -i path/to/input/taxon_ID_file -> new Folder/used Folder my_new_databases with: protaccession2tax.gz, pdbaccession2tax.gz, taxdump.tar.gz, nr.gz
如果已下载所有数据库文件,则使用tax2protome:
位置参数:--路径确定包含所有所需数据库的文件夹 位置参数:--taxon和/或--input必须至少提供一个taxon ID或taxon ID输入文件 可选参数:--dbname确定数据库的位置/名称(如果引用数据库不在--path中或具有不同的名称(请参见表中的标准名称)
--正在检查路径以查找所有必需的数据库文件,并下载丢失的数据库。在
用法示例:
python -m tax2proteome -p path/to/folder -n path/to/reference_database -t 11111 22222 -o path/my_taxon_specified_database.fasta
python -m tax2proteome -p path/to/folder -n path/ to/ uniprot.fasta -t 11111 22222 -i path/to/input
python -m tax2proteome -d ncbi -p path/to/folder -i path/to/input
python -m tax2proteome -d uniprot -p path/to/folder -i path/to/input -o path/to/user_specified_db.fasta
如果路径一经确定,就不能再次指定,只要使用同一个文件夹外壳即可。在
作者
- Juliane Schmachtenberg
许可证
这个项目是在麻省理工学院许可下授权的-有关详细信息,请参阅LICENSE文件
- 项目
标签: