如何根据变量匹配两个文件？

>UniRef90_A0A0K2VG56 - Cluster: titin MTTQAPTFTQPLQSVVALEGSAATFEAHVSGFPVPEVSWFRDGQVISTSTLPGVQISFSD GRARLMIPAVTKANSGQYSLRATNGSGQATSTAELLVTAETAPPNFTQRLQSMTVRQGSQ VRLQVRVTGIPTPVVKFYRDGAEIQSSLDFQISQEGELYSLLIAEAYPEDSGTYSVNATN SVGRATSTAELLVQGEEVVPAKKTKTIVSTAQISETRQTRIEKKIEQKIEAHFDAKSIAT VEMVIDGATGQQLPHKTPPRIPPKPKSRSPTPPSVAAKAQLGRQQSPSPIRHSPSPVRHV >UniRef90_UPI00045E3C3E - Cluster: titin isoform X25 MTTQAPTFTQPLQSVVVLEGSTATFEAHISGFPVPEVSWIRDGQVISTSTLPGVQISFSD GRAKLTIPAVTKANSGRYSLRATNGSGQATSTAELLVKAETAPPNFVQRLQSMTVRQGSQ VRLQVRVTGIPTPVVKFYRDGAEIQSSLDFQISQEGELYSLLIAEAYPEDSGTYSVNATN SVGRATSTAELLVQGEEEVPAKKTKTIVSTAQISESRQTRIEKKIEAHFDARSIATVEMV IDGAAGQQLPHKTPPRIPPKPKSRSPTPPSIAAKAQLARQQSPSPIRHSPSPVRHVRAPT

MTTQAPTFTQPLQSVVVLEGSTATFEAHISGFPVPEVSWIRDGQVISTSTLPGVQISFSD GRAKLTIPAVTKANSGRYSLRATNGSGQATSTAELLVKAETAPPNFVQRLQSMTVRQGSQ VRLQVRVTGIPTPVVKFYRDGAEIQSSLDFQISQEGELYSLLIAEAYPEDSGTYSVNATN SVGRATSTAELLVQGEEEVPAKKTKTIVSTAQISESRQTRIE ###UniRef90_A0A0K2VG56 VEMVIDGATGQQLPHKTPPRIPPKPKSRSPTPPSVAAKAQLGRQQSPSPIRHSPSPVRHV RAPTPSPVRSVSPAGRISTSPIRSVKSPLLTRKMQAATAATGSEVPPPWKQESYMASSAE AEMRETTMTSSTQIRREERWEGRYGVQE ###Uniref90_A0A0P5UY87

f2=open("~/PROJET_M2/data/uniref90.fasta", "r") fasta={} for i in f2: i=i.rstrip("\n") if i.startswith(">"): l=next(f2,'').strip() ### the problem is there I guess i=i[1:] i=i.split(" ") fasta[i[0]]=l print(fasta)

2条回答

网友

1楼 · 编辑于 2024-10-04 15:33:12

您可以使用一个简单的缓冲区（current这里）像这样构建dictionnay：

with open("/path/to/file", "r") as f1:
    result, current_id, current = {}, None, ""
    for l in f1:
        print(l)

        if l[0] == ">":
            if current_id:
                result[current_id] = current
            current_id = l[1:].strip()
            current = ""
        else:
            current += l.strip()
    result[current_id] = current

About the with keyword: https://www.pythonforbeginners.com/files/with-statement-in-python

我想剩下的对你没问题吧

网友

2楼 · 编辑于 2024-10-04 15:33:12

我有一个处理FASTA序列的小函数。它读取一个文件并输出一个序列的dict。它还处理空行和跨越多行的序列

def parse_fasta(fasta_file):
    '''file_path => dict
    Return a dict of id:sequence pairs.
    '''
    d = {}
    _id = False
    seq = ''
    with open(fasta_file,'r') as f:
        for line in f:
            if line.startswith('\n'):
                continue
            if line.startswith('>'):
                if not _id:
                    _id = line.strip()[1:]
                elif _id and seq:
                    d.update({_id:seq})
                    _id = line.strip()[1:]
                    seq = ''
            else:
                seq += line.strip()
        d.update({_id:seq})
    return d

您只需要调整_id = line.strip()[1:]以丢弃不需要的id行部分。我想_id = line.strip()[1:].split()[0]就足够了

相关问题更多 >

编程相关推荐

热门问题

热门文章