将fasta文件与包含序列id的txt文件进行比较

>sp|P00115|CYC6_SYNP3 Cytochrome c6 OS=Synechococcus sp. (strain ATCC 27167 / PCC 6312) OX=195253 GN=petJ PE=1 SV=2 MKTLLTILALTLVTLTTWLSTPAFAADIADGAKVFSANCAACHMGGGNVVMANKTLKKEA LEQFGMNSADAIMYQVQNGKNAMPAFGGRLSEAQIENVAAYVLDQSSKNWAG >tr|K9RTH7|K9RTH7_SYNP3 N-acyl-D-glucosamine 2-epimerase OS=Synechococcus sp. (strain ATCC 27167 / PCC 6312) OX=195253 GN=Syn6312_2130 PE=4 SV=1 MAPQINFPFSDLIAGYVTSYDTETDIFGLKTSDGREFPVKLSPMAYAKVIQNFDEGYPDA TSTMRAWLTPGRFLFVYGVFYPDTDVFDAKQVVFAGKKEDDYVFEKQDWWIQQINALGKF YVKAQFGQEEIDYRNYRTDLSVSGERSSVKFRQETDTISRLVYGFATAFMMTGDEVFLEA AEKGTEYLRDHMRFVDRDEDIIYWYHGIDVQGEKELKIFASEFGDDYDAIPAYEQIYALA GPIQTYRCTGDPRILSDAEQTIKLFDKFFLDQSEYGGYFSHIDPLMLDPRSDSLGRNKAR KNWNSVGDHAPAYLINLWLATGEQKYADMLEYTFDTIEKYFPDYENSPFVQERFYEDWSH DTTWGWQQNRAVVGHNLKIAWNLMRMQSLKPKEQYVGLAQKIADLMPSVGSDQQRGGWSD TVERLLTNNSKFHQFVWHDRKAWWQQEQAILAYLILGGILEHDDYHRLGREAAAFYNAWF LDLEDGGVYFNVLANGISYLARGNERAKGSHSMSGYHSFELCYLAAVYTNFLITKHPMDF YFKPLPNGFPDRILRVSPDILPPGSILLESVEIDGKAYTDFDSQALTVKLPETKERVKVK VRLAPKS >tr|K9RXQ9|K9RXQ9_SYNP3 Uncharacterized protein OS=Synechococcus sp. (strain ATCC 27167 / PCC 6312) OX=195253 GN=Syn6312_3008 PE=4 SV=1 MKVEILKKRLNKECPMTTTRMPEDVIQELKQIASLLVFWGYQPLIGADIGQGLRTDLEQL EDDKVSALVASLKRHRVSDEVLQTALMETTIN

from Bio import SeqIO from Bio.SeqRecord import SeqRecord import sys p = "proteome.fasta" file = "reference.txt" out = "jopik.txt" with open(out, "w") as o: sys.stdout = o for seq_record in SeqIO.parse(open(p, mode = "r"),"fasta"): seq_record.description=' '.join(seq_record.description.split()[1:]) with open(file,"r") as f: line = f.readlines() print(line) if (seq_record.id == line): i = seq_record.description print(i)

1条回答

网友

1楼 · 发布于 2024-06-14 11:20:03

您只是缺少了某种循环for x in y:。此外，文件处理程序在Python中是可移植的（以非二进制模式的行进行迭代），这将避免您在开始迭代之前将整个文件加载到内存中（就像.readlines()）

# load first file and create a helpful structure
compare_dict = {}
with open("reference.txt") as fh:
    for line in fh:
        if line:  # throw out empty lines, could do a stricter compare
            compare_dict[line.strip()] = None

# form a tuple of possible prefixes
compare_tuple = tuple(">" + a for a in compare_dict.keys())

with open("proteome.fasta") as fh:
    for line_no, line in enumerate(fh, 1):  # lines start at 1, not 0
        if line.startswith(compare_tuple)
            key, value = line.split(" ", 1)
            key = key[1:]  # strip ">" from prefix
            compare_dict[key] = value
            print("found {} on L{}: {}".format(key, line_no, value))

# optionally display keys which were not in your .fasta file
for key, value in compare_dict.items():
    if value is None:
        print("failed to find a definition for {}".format(key))

相关问题更多 >

编程相关推荐

热门问题

热门文章