从克拉克丰度表创建biom格式的表。
clark-biom的Python项目详细描述
从clark输出创建biom格式表(http://biom-format.org) (http://clark.cs.ucr.edu/)用于下游工具,如 系统发育图(http://phylotoast.org)。
安装
>;来自PYPI:
$ pip install clark-biom
>;来自github:
$ pip install git+http://github.com/smdabdoub/clark-biom.git
>;来源:
$ python setup.py install
要求
- 生物模型格式>;=2.1.5
- h5py>;=2.5.0[可选]
文档
程序以克拉克的一个或多个文件输出为输入 估算工具。每个文件都被解析,每个otu的计数 (操作分类单元)与数据库ID(如NCBI)一起记录, 还有血统。提取的数据然后存储在biom表中,其中每个计数 链接到它所属的样本和otu。样本ID从 输入文件名(扩展名前面的“.”之前的所有内容)。
biom格式目前有两个主要版本。版本1.0使用 json(javascript对象表示法)格式作为基础。版本2.x使用 以hdf5(分层数据格式v5)为基础。输出格式可以是 使用–fmt选项指定。注意,tab分隔(tsv)输出 格式也可用。生成的文件将不包含 元数据,但可以通过电子表格程序打开。
默认情况下,biom格式的版本2用于输出,但需要 python库“h5py”。如果图书馆没有安装,克拉克·比姆会 自动切换到使用版本1.0。注意输出可以 对于版本1.0和TSV文件,可以选择使用gzip(–gzip)压缩。 版本2文件将自动压缩。
目前,每个otu id的分类法作为行元数据存储在biom中。 使用qiime和metaphlan使用的七级格式的表:k_u k,p_u p,… 如果您希望支持其他格式,请提交问题或发送 拉式请求(注意贡献指南)。
usage: clark-biom.py [-h] [-o OUTPUT_FP] [--fmt {hdf5,json,tsv}] [--gzip] [--version] [-v] clark_abd_tbl [clark_abd_tbl ...]
用法示例
默认参数的基本用法:
$ clark-biom S1.txt S2.txt
This produces a compressed BIOM 2.1 file: table.biom with sample IDs: S1, S2.
Biom v1.0输出:
$ clark-biom S1.txt S2.txt --fmt json
Produces a BIOM 1.0 file: table.biom
压缩TSV输出:
$ clark-biom S1.txt S2.txt --fmt tsv --gzip -o table.tsv
Produces a TSV file: table.tsv.gz
程序参数
位置参数:
clark_abd_tbls Abundance table files from estimate_abundance.sh
可选参数:
-o OUTPUT_FP, --output_fp OUTPUT_FP Path to the BIOM-format file. By default, the table will be in the HDF5 BIOM 2.x format. Users can output to a different format using the --fmt option. The output can also be gzipped using the --gzip option. Default path is: ./table.biom --fmt {hdf5,json,tsv} Set the output format of the BIOM table. Default is HDF5. --gzip Compress the output BIOM table with gzip. HDF5 BIOM (v2.x) files are internally compressed by default, so this option is ignored when specifying --fmt hdf5. --version Print program's version number and exit -v, --verbose Print status messages during program execution. -h, --help Print this help message and exit