在Snakemake中组合多个通配符

├── DIR1 │ ├── smp1.fastq.gz │ ├── smp1_fastqc/ │ ├── smp2.fastq.gz │ └── smp2_fastqc/ └── DIR2 ├── smp3.fastq.gz ├── smp3_fastqc/ ├── smp4.fastq.gz └── smp4_fastqc/

DIRS,SAMPLES = glob_wildcards(INDIR+'/{dir}/{smp}.fastq.gz') # Create samples missing def filter_combinator(combinator, authlist): def filtered_combinator(*args, **kwargs): for wc_comb in combinator(*args, **kwargs): if frozenset(wc_comb) in authlist: yield wc_comb return filtered_combinator # Authentification combine_dir_samples = [] for dir in DIRS: samples, = glob_wildcards(INDIR+'/'+dir+'/{smp}.fastq.gz') for smp in samples: combine_dir_samples.append( { "dir" : dir, "smp" : smp} ) combine_dir_samples = { frozenset( x.items() ) for x in combine_dir_samples } dir_samples = filter_combinator(product, combine_dir_samples)

rule all: input: expand(INDIR+'/{dir}/{smp}_Nreads.txt', dir_samples, dir=DIRS, smp=SAMPLES) rule countReads: input: INDIR+'/{dir}/{smp}_fastqc/fastqc_data.txt' output: INDIR+'/{dir}/{smp}_Nreads.txt' shell: "grep 'Total\ Sequences' {input} | awk '{{print {wildcards.dir},$3}}' > {output}" --------------------------------------------------------------- # result ok ├── DIR1 │ ├── smp1_Nreads.txt │ └── smp2_Nreads.txt └── DIR2 ├── smp3_Nreads.txt └── smp4_Nreads.txt > cat smp1_Nreads.txt DIR1 15082186

rule concatNreads: input: expand(INDIR+'/{dir}/{smp}_Nreads.txt', dir_samples, dir=DIRS, smp=SAMPLES) output: INDIR+'/{dir}/Nreads_{dir}.txt' shell: "cat {input} > {output}" ------------------------------------------------------------------ # result ├── DIR1 │ └── Nreads_DIR1.txt └── DIR2 └── Nreads_DIR2.txt # but both files are identical > cat Nreads_DIR1.txt DIR1 15082186 DIR1 22326081 DIR2 11635831 DIR2 45924459 # I would like to have > cat Nreads_DIR1.txt DIR1 15082186 DIR1 22326081 > cat Nreads_DIR2.txt DIR2 11635831 DIR2 45924459

expand(OUTFastq+'/{dir}/FastQC/{{smp}}_Nreads.txt', dir_samples, dir=DIRS) lambda wildcards: expand(OUTFastq+'/{dir}/FastQC/{wildcards.smp}_Nreads.txt', dir_samples, dir=DIRS, smp=SAMPLES) expand(OUTFastq+'/{dir}/FastQC/{wildcards.smp}_Nreads.txt', dir_samples, dir=DIRS, smp=SAMPLES)

dir_to_samples = {"DIR1": ["smp1", "smp2"], "DIR2": ["smp3", "smp4"]} def func(dir): return dir_to_samples[dir] rule all: input: lambda wildcards: expand(OUTDIR+'/{dir}/FastQC/{smp}_fastqc.zip', dir=wildcards.dir, smp=func(wildcards.dir)) rule fastQC: input: lambda wildcards: expand(INDIR+'/{dir}/{smp}.fastq.gz', dir=wildcards.dir, smp=func(wildcards.dir)) output: OUTDIR+'/{dir}/FastQC/{smp}_fastqc.zip' shell: "fastqc {input} -o {OUTDIR}/{wildcards.dir}/FastQC/" > AttributeError: 'Wildcards' object has no attribute 'dir'

1条回答

网友

1楼 · 发布于 2024-09-27 19:28:04

首先，我认为您已经将解决方案过度复杂化，使其对Snakemake不那么惯用。因此，您在执行规则时遇到了问题。无论如何，让我以你提出的形式回答你的问题

毫无疑问，两个Nreads_DIRx.txt文件是相同的，因为输入不依赖于输出中的任何通配符：

rule concatNreads:
    input:
        expand(INDIR+'/{dir}/{smp}_Nreads.txt', dir_samples, dir=DIRS, smp=SAMPLES)

这里expand函数解析dir和smp变量，生成完全指定的文件名列表。您需要的是真正取决于输出中的通配符的东西：

rule concatNreads:
    input:
        lambda wildcards: ...

使用输出中的通配符完全指定了{dir}，因此不需要从DIRS变量为其赋值：

rule concatNreads:
    input:
        lambda wildcards: expand(INDIR+'/{dir}/{smp}_Nreads.txt', dir=wildcards.dir, smp=func(wildcards.dir))

现在的问题是如何实现这个func函数，它为目录生成样本列表。我花了一段时间才理解您使用combine_dir_samples和filter_combinator的诀窍，因此我将把它留给您使用该代码实现func函数。但您真正需要的是来自DIR的映射->；样本：

dir_to_samples = {"DIR1": ["smp1", "smp2"], "DIR2": ["smp3", "smp4"]}

def func(dir):
    return dir_to_samples[dir]

这个dir_to_samples可能更容易评估，但下面是您修改的解决方案：

for dir in DIRS:
    samples, = glob_wildcards(INDIR+'/'+dir+'/{smp}.fastq.gz')
    dir_to_samples.append({dir: samples})

相关问题更多 >

编程相关推荐

热门问题

热门文章