用于处理每项元数据的dtool CLI实用程序
dtool-overla的Python项目详细描述
安装
pip install dtool-overlay
示例用法
获取要使用的数据集:
^{pr2}$显示现有覆盖:
$ dtool overlays show $LOCAL_DS_URI identifiers,relpaths 23ebd7cd21a905d5f255919ca1d0491901cb8718,reference.4.bt2 37e2d68bb38271036d96b6979d24666e0d4fd814,reference.rev.1.bt2 41fb9ae5d4f6c37226ff324c701b84bc3110709e,reference.1.bt2 828ebf503926b7c1b8b07c1995b4ca818814b404,reference.rev.2.bt2 b445ff5a1e468ab48628a00a944cac2e007fb9bc,U00096.3.fasta d21454a7338c53eabc8d8ed7c2f9c3ff4585c4cf,reference.3.bt2 dda8452b346d51b9cf60f0662ef3d6e3b6da2e74,reference.2.bt2
上面的输出显示此数据集上没有覆盖。(在 “标识符”和“relpaths”列用于记账)。在
使用glob模式创建“is_fasta”布尔覆盖模板:
$ dtool overlays template glob $LOCAL_DS_URI is_fasta '*.fasta' > is_fasta.csv $ cat is_fasta.csv identifiers,is_fasta,relpaths 23ebd7cd21a905d5f255919ca1d0491901cb8718,False,reference.4.bt2 37e2d68bb38271036d96b6979d24666e0d4fd814,False,reference.rev.1.bt2 41fb9ae5d4f6c37226ff324c701b84bc3110709e,False,reference.1.bt2 828ebf503926b7c1b8b07c1995b4ca818814b404,False,reference.rev.2.bt2 b445ff5a1e468ab48628a00a944cac2e007fb9bc,True,U00096.3.fasta d21454a7338c53eabc8d8ed7c2f9c3ff4585c4cf,False,reference.3.bt2 dda8452b346d51b9cf60f0662ef3d6e3b6da2e74,False,reference.2.bt2
将覆盖模板写入数据集:
$ dtool overlays write $LOCAL_DS_URI is_fasta.csv
显示新创建的覆盖:
$ dtool overlays show $LOCAL_DS_URI identifiers,is_fasta,relpaths 23ebd7cd21a905d5f255919ca1d0491901cb8718,False,reference.4.bt2 37e2d68bb38271036d96b6979d24666e0d4fd814,False,reference.rev.1.bt2 41fb9ae5d4f6c37226ff324c701b84bc3110709e,False,reference.1.bt2 828ebf503926b7c1b8b07c1995b4ca818814b404,False,reference.rev.2.bt2 b445ff5a1e468ab48628a00a944cac2e007fb9bc,True,U00096.3.fasta d21454a7338c53eabc8d8ed7c2f9c3ff4585c4cf,False,reference.3.bt2 dda8452b346d51b9cf60f0662ef3d6e3b6da2e74,False,reference.2.bt2
要从项的relpath提取多个元数据,可以使用 dtool overlays template parse命令。这需要一个数据集URI作为输入 解析规则(有关详细信息,请参见https://pypi.org/project/parse/)和glob 规则。后者决定应用解析的relpath。在
以下面的数据集为例:
$ dtool ls http://bit.ly/Ecoli-reads-minified 8bda245a8cd526673aab775f90206c8b67d196af ERR022075_2.fastq.gz 9760280dc6313d3bb598fa03c5931a7f037d7ffc ERR022075_1.fastq.gz
下面的命令可用于生成套印格式的模板 “有用名称”和“阅读”:
$ dtool overlays template parse \ http://bit.ly/Ecoli-reads-minified \ '{useful_name}_{read:d}.fastq.gz'
CSV输出结果如下:
identifiers,read,useful_name,relpaths 8bda245a8cd526673aab775f90206c8b67d196af,2,ERR022075,ERR022075_2.fastq.gz 9760280dc6313d3bb598fa03c5931a7f037d7ffc,1,ERR022075,ERR022075_1.fastq.gz
若要在解析时忽略变量元素,可以使用未命名的大括号。这个 例如,下面的命令仅生成覆盖“有用的”名称:
$ dtool overlays template parse \ http://bit.ly/Ecoli-reads-minified \ '{useful_name}_{:d}.fastq.gz' identifiers,useful_name,relpaths 8bda245a8cd526673aab775f90206c8b67d196af,ERR022075,ERR022075_2.fastq.gz 9760280dc6313d3bb598fa03c5931a7f037d7ffc,ERR022075,ERR022075_1.fastq.gz
有时能够找到成对的项目是很有用的。例如当 处理有正向和反向读取的基因组测序数据。在
可以使用 命令如下:
$ dtool overlays template pairs http://bit.ly/Ecoli-reads-minified .fastq.gz identifiers,pair_id,relpaths 8bda245a8cd526673aab775f90206c8b67d196af,9760280dc6313d3bb598fa03c5931a7f037d7ffc,ERR022075_2.fastq.gz 9760280dc6313d3bb598fa03c5931a7f037d7ffc,8bda245a8cd526673aab775f90206c8b67d196af,ERR022075_1.fastq.gz
在上面的后缀中。速成gz“用于提取前缀ERR022075_ 用于查找匹配对的。在
- 项目
标签: