tax2proteome基于给定的分类单元id和参考数据库以fasta格式创建特定于分类单元的数据库。

tax2proteome的Python项目详细描述


分类2蛋白质组

tax2proteome基于给定的分类单元id和参考数据库以fasta格式创建特定于分类单元的数据库。根据所选选项,该分类单元特定数据库包含以下所有fasta条目:

  • 在系统发育树中给出分类单元id及其后代IDs
  • 给定分类单元ID(选项--无后代)
  • 给定的分类单元ID适应系统进化树中指定的级别及其后代分类单元ID(选项--级别)
  • 在系统发育树中给定分类单元ID及其后代分类单元ID,直到级别为物种时,不包括级别较低的分类单元ID(选项--种)

从中读出匹配条目的数据库有:NCBI非冗余肽数据库、swissprot、uniprot或trembl数据库。此外,只要数据库的头包含“OX=NUMBER”形式的taxonid或包含NCBI/uniprot登录号,就可以使用用户定义的数据库。 使用未压缩的数据库可以大大加快程序的速度。在

入门

tax2proteome是python3命令行工具。它可以安装为pypi包或conda包(https.anaconda.org/jschmacht/tax2protome). 在

先决条件

Python3

安装

pip install tax2proteome

或者

^{pr2}$

部署

tax2proteome是一个命令行工具,它的开头是:

python -m tax2proteome [options]

选项:

optiondescription
-i--inputTaxID input file: tabular file containing a column of NCBI taxon IDs. Columns tab separated.
-c--columnThe column (zero-based) in the tabular file that contains Taxon IDs. Default = 0.
-t--taxonNCBI taxon ID/s for database extraction. Multiple taxonIDs seperated by space.
-d--databaseDatabase choice for analysis or for download. Choices: ncbi, uniprot, tremble, swissprot.
-p--pathPath to folder with all required databases: taxdump.tar.gz (for all databases), prot.accession2taxid or prot.accession2taxid.gz and pdb.accession2taxid.gz (for ncbi databases). Optional: peptide_database named: nr/nr.gz or uniprot_trembl.fasta/uniprot_trembl.fasta.gz or uniprot_sprot.fasta/uniprot_sprot.fasta.gz or uniprot.fasta./uniprot.fasta.gz
-o--outFile name and direction of the result taxon specified peptide database. Default = /taxon_specified_db_DATE/taxon_database.fasta
-n--dbnameDatabase name and direction. If database is in other folder than --path or name deviates from standard names
-l--levelHierarchy level up in anchestral tree. Choices: species, section, genus, tribe, subfamily, family, superfamily, order, superorder, class, phylum, kingdom, superkingdom
-r--non_redundantMakes the final database non redundant in regard to sequences, headers are concatenated.
-z--no_descendantsSelect peptide database only by given taxon IDs, descendant taxons are excluded.
-s--speciesSelect peptide database only until taxonomic level "species", descendants from species are excluded.
-u--threadsNumber of threads for using multiprocessing. Default = number of cores.
-x--reduce_headerReduce the long headers of NCBI entries to accession IDs. Use only for NCBI databases.

依赖项:

从NCBI参考数据库生成分类单元特定数据库所需的数据库

  • 方案2税.gz/Protaccession2税
  • PDB第2部分税.gz在
  • 在taxdump.tar.gz在
  • 在gz编号/编号

从uniprot/swissprot/trembl参考数据库生成分类单元特定数据库所需的数据库:

  • 在taxdump.tar.gz在
  • 在uniprot.fasta.gz公司/ 快速统一防护/uniprot公司_sprot.fasta.gz公司/uniprot公司_斯普罗特·法斯塔/uniprot公司_特伦布.法斯塔.gz/uniprot公司_特雷姆布法斯塔在

所有数据库文件应在同一天下载并存储在同一文件夹中。在

数据库

所有数据库应在与肽数据库相同的日期下载,以确保成功的登录匹配。 该数据库可以手动下载,也可以通过tax2protome下载,选项为database{ncbi,uniprot,trembl,swissprot}

^{tb2}$

tax2proteome与数据库下载的使用:

所有需要的数据库都将下载到指定的路径(选项--path)。如果未指定,则默认使用名为databases\u DATE的文件夹。在

用法示例:

python -m tax2proteome -d uniprot -i path/to/input/taxon_ID_file  -> new Folder databases_DATE with: taxdump.tar.gz, uniprot.fasta
python -m tax2proteome -i path/to/input/taxon_ID_file  -> new Folder databases_DATE with: taxdump.tar.gz, uniprot.fasta
python -m tax2proteome -d ncbi -p path/to/my_new_databases -i path/to/input/taxon_ID_file  -> new Folder/used Folder my_new_databases with: protaccession2tax.gz, pdbaccession2tax.gz, taxdump.tar.gz, nr.gz

如果已下载所有数据库文件,则使用tax2protome:

位置参数:--路径确定包含所有所需数据库的文件夹 位置参数:--taxon和/或--input必须至少提供一个taxon ID或taxon ID输入文件 可选参数:--dbname确定数据库的位置/名称(如果引用数据库不在--path中或具有不同的名称(请参见表中的标准名称)

--正在检查路径以查找所有必需的数据库文件,并下载丢失的数据库。在

用法示例:

python -m tax2proteome -p path/to/folder -n path/to/reference_database -t 11111 22222 -o path/my_taxon_specified_database.fasta
python -m tax2proteome -p path/to/folder -n path/ to/ uniprot.fasta -t 11111 22222 -i path/to/input
python -m tax2proteome -d ncbi -p path/to/folder -i path/to/input
python -m tax2proteome -d uniprot -p path/to/folder -i path/to/input -o path/to/user_specified_db.fasta

如果路径一经确定,就不能再次指定,只要使用同一个文件夹外壳即可。在

作者

  • Juliane Schmachtenberg

project_on_github

许可证

这个项目是在麻省理工学院许可下授权的-有关详细信息,请参阅LICENSE文件

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
JDBC字符串中的java Mysql会话变量   java Gradle多项目:链接到父项目时子项目失败   eclipse我在使用Java:401未经授权错误列出google驱动器文件时出错   java如何在spring boot中以编程方式设置defaultLocale   java不能跨类更改JLabel   java如何在获取元素号的同时找到数组中的最小数   java如何在不使用节点的情况下交替合并链表?通过使用递归?   当使用XStream转换为java对象时,xml序列化会转义xml中的某些元素   java如何使用MPAndroid图表库跳过折线图中特定索引上的值?   java记录未使用primefaces 6.2更新   java JQuery数据表HideColumn   java为什么我的播放器在我移动时会振动,碰撞检测方法导致了这种情况   使用HTTP状态500而不是HTTP状态400的java JAXRS响应   java从超类方法调用子类方法?   用于远程ip(主机)的Java RMI