在python中，从交替文件循环打印行

fastq = open(Input.fastq, "r") fasta = open(Input.fasta, "r") ReadIDs = [] IDs = [] with fastq as fq: for line in fq: if "read" in line: ReadIDs.append(line) print(line.strip()) for ID in ReadIDs: IDs.append(ID[1:6]) with fasta as fa: for line in fa: if any(string in line for string in IDs): print(next(fa).strip()) next(fq) print(next(fq).strip()) print(next(fq).strip())

3条回答

网友

1楼 · 编辑于 2024-09-28 01:28:39

我喜欢@Chris_Rands的Biopython solution对于小文件更好，但是这里有一个解决方案，它只使用Python附带的电池，并且具有内存效率。它假设fasta和fastq文件以相同的顺序包含相同数量的读取。在

with open('Input.fasta') as fasta, open('Input.fastq') as fastq, open('DesiredOutput.fastq', 'w') as fo:
    for i, line in enumerate(fastq):
        if i % 4 == 1:
            for j in range(2):
                line = fasta.readline()
        print(line, end='', file=fo)

网友

2楼 · 编辑于 2024-09-28 01:28:39

## Open the files (and close them after the 'with' block ends)
with open("Input.fastq", "r") as fq, open("Input.fasta", "r") as fa:

    ## Read in the Input.fastq file and save its content to a list
    fastq = fq.readlines()

    ## Do the same for the Input.fasta file
    fasta = fa.readlines()


## For every line in the Input.fastq file
for i in range(len(fastq)):
    print(fastq[i]))
    print(fasta[2 * i])
    print(fasta[(2 * i) + 1])

网友

3楼 · 编辑于 2024-09-28 01:28:39

我建议您使用Biopython，这将为您省去很多麻烦，因为它为这些文件格式提供了很好的解析器，这些文件格式不仅可以处理标准情况，还可以处理多行fasta。在

下面是一个用相应的fasta序列行替换fastq序列行的实现：

from Bio import SeqIO

fasta_dict = {record.id: record.seq for record in
              SeqIO.parse('Input.fasta', 'fasta')}

def yield_records():
    for record in SeqIO.parse('Input.fastq', 'fastq'):
        record.seq = fasta_dict[record.id]
        yield record

SeqIO.write(yield_records(), 'DesiredOutput.fastq', 'fastq')

如果您不想使用头而只依赖顺序，那么解决方案就更简单、更节省内存（只需确保记录的顺序和数量相同即可），无需先定义字典，只需将记录一起迭代：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章