在微生物中发现高度分化的dna和rna病毒
vica的Python项目详细描述
简介
VICA设计用于识别高度分化的病毒和代表新病毒的噬菌体 集合的亚基因组和亚转录组数据中的科或目。维卡 这是通过组合来自不同组合的信息来实现的吗 同源性。当前版本的VICA使用三个功能集(5-MERS, 所有三个帧中的密码子用法,以及长kmers(k=24,31)的minhash草图。 分类器使用一个联合训练的深神经网络和logistic模型 在tensorflow中实现。这个软件设计用来识别两种DNA 以及rna病毒和噬菌体在基因组和转录体中的表达。
型号
当前租约不包括经过培训的模型,但我们将添加它们 在未来允许快速识别病毒而无需模型训练。
用法
该软件包可以对装配后的数据进行分类,训练新的分类模型。 大多数用户只使用VICA中的分类功能。我们将提供 未来版本中用于分类contig的训练模型。分类可以是 使用以下命令很容易调用:
vica classify -infile contigs.fasta -out classifications.txt -modeldir modeldir
该软件包还提供了一套工具,用于准备数据、培训和评估新的 分类模型。执行此操作的许多工作流都可以使用 相同的子命令界面:
vica split vica get_features vica train vica evaluate
有关详细信息,请参见教程。
要求
包依赖于许多python依赖项,这些依赖项在 软件包是用pip安装的。
非python依赖项是:
- bbtools>;v37.75-https://jgi.doe.gov/data-and-tools/bbtools/
- 浪子2.6.3-https://github.com/hyattpd/Prodigal
- GNU核心程序-http://www.gnu.org/software/coreutils/coreutils.html
版权信息
维卡版权所有(c)2018,加州大学摄政官,通过 劳伦斯伯克利国家实验室 美国能源部的批准)。保留所有权利。
如果您对使用或分发本软件的权利有疑问, 请致电IPO@lbl.gov联系伯克利实验室创新与合作办公室 参考“使用监督学习(lbnl)的病毒分类算法 参考2017-125)。“
注意。这个软件是在美国国务院的资助下开发的。 能量。因此,美国政府被授予了自己和他人的权力 代表其在全球范围内获得一份已付清的、非排他性的、不可撤销的许可证。 复制、准备衍生作品并公开执行的软件 公开展示。美国政府是为自己和其他行为 代表其在全球范围内 复制、准备衍生作品、将副本分发给 公开,公开表演,公开展示,并允许他人这样做。