Snakemake：将具有不同后缀的输入合并到samesuffix outpu

# Metadata in a pandas dataframe metadata = data.frame(SAMPLES, LAYOUTS, ...) # Function for retrieving metadata def get_metadata(sample, column): result = metadata.loc[metadata['sample'] == sample][column].values[0] return result # Rules rule all: input: expand('{sample}.bam', sample = SAMPLES) rule: download: output: '{sample}.fastq.gz' for 'SINGLE' in metadata[LAYOUT], '{sample}_1.fastq.gz' for 'PAIRED' in metadata[LAYOUT] params: layout = lambda wildcards: get_metadata(wildcards.sample, layout_col) shell: 'touch {output}' rule align: input: '{sample}.fastq.gz' for 'SINGLE' in metadata[LAYOUT], '{sample}_1.fastq.gz' for 'PAIRED' in metadata[LAYOUT] params: layout = lambda wildcards: get_metadata(wildcards.sample, layout_col) output: '{sample}.bam' shell: 'touch {output}'

1条回答

网友

1楼 · 发布于 2024-10-02 12:26:39

您可以使用function as input：

def align_input(wildcards):
   # Check if wildcards.sample is paired end or single end
   # If single end, return '{sample}.fastq.gz'.format(wildcards.sample)
   # Else, return '{sample}_1.fastq.gz'.format(wildcards.sample) and
   #              '{sample}_2.fastq.gz'.format(wildcards.sample) as list

rule align:
    input: align_input
    output: '{sample}.bam'
    shell: ...

一件事是，您编写了align规则，其中输入列出了所有示例的每个fastq文件。您需要编写规则，以便输入只有一个样本的fastq文件，以及对齐该单一样本的命令。通配符{sample}表示它将对您拥有的所有示例应用该规则，一次一个。你应该对你的下载规则做一些类似的事情。在

另一种解决方案是在工作流之外预先下载所有文件，然后可以使用两个单独的对齐规则：

^{pr2}$

由于fastq文件已经存在，snakemake将看到每个示例只能应用其中一个规则，因为另一个规则缺少输入文件，并且没有创建规则。在

相关问题更多 >

编程相关推荐

热门问题

热门文章