在Python文本文件中查找图章

>chr9:128683-128744 GGATTTCTTCTTAGTTTGGATCCATTGCTGGTGAGCTAGTGGGATTTTTTGGGGGGTGTTA >chr16:134222-134283 AGCTGGAAGCAGCGTGGGAATCACAGAATGGCCGGGACCTTAAAGGCTTTGCTTGGCCTGG >chr16:134226-134287 GGAAGCAGCGTGGGAATCACAGAATGGACGGCCGATTAAAGGCTTTGCTTGGCCTGGATTT >chr1:134723-134784 AAGTGATTCACCCTGCCTTTCCGACCTTCCCCAGAACAGAACACGTTGATCGTGGGCGATA >chr16:135770-135831 GCCTGAGCAAAGGGCCTGCCCAGACAAGATTTTTTAATTGTTTAAAAACCGAATAAATGTT

infile = open('infile.txt', 'r') ss = 'CCGA' new = [] for line in range(len(infile)): if not infile[line].startswith('>'): for match in pattern.finder(ss): new.append(infile[line-1])

2条回答

网友

1楼 · 编辑于 2024-09-24 22:24:33

在这里使用发电机可能很方便。你知道吗

def find_motif(f, motif):
    while True:
        try:
            id_line = next(f)
            text_line = next(f)
        except StopIteration:
            break
        if motif in text_line:
            yield id_line

with open("my file") as f:
    with_motif = find_motif(f, "ABCD")
    for id_line in with_motif:
        print(id_line)

所以：

text = """>chr9:128683-128744
GGATTTCTTCTTAGTTTGGATCCATTGCTGGTGAGCTAGTGGGATTTTTTGGGGGGTGTTA
>chr16:134222-134283
AGCTGGAAGCAGCGTGGGAATCACAGAATGGCCGGGACCTTAAAGGCTTTGCTTGGCCTGG
>chr16:134226-134287
GGAAGCAGCGTGGGAATCACAGAATGGACGGCCGATTAAAGGCTTTGCTTGGCCTGGATTT
>chr1:134723-134784
AAGTGATTCACCCTGCCTTTCCGACCTTCCCCAGAACAGAACACGTTGATCGTGGGCGATA
>chr16:135770-135831
GCCTGAGCAAAGGGCCTGCCCAGACAAGATTTTTTAATTGTTTAAAAACCGAATAAATGTT"""
f = iter(text.splitlines())

with_motif = find_motif(f, "GGAC")
for id_line in with_motif:
    print(id_line)

输出：

>chr16:134222-134283
>chr16:134226-134287

网友

2楼 · 编辑于 2024-09-24 22:24:33

将Biopython用于此目的将更加健壮和简单：

from Bio import SeqIO

motif = 'GGAC'
for record in SeqIO.parse('input.fa', 'fasta'):
    if motif in record.seq:
        print(record.id)

相关问题更多 >

编程相关推荐

热门问题

热门文章