打印以x开始以y结束的字符串中的所有匹配项

# calculates amino acid sequence from nucleotide sequence protein = nucleotide_seq.transcribe().translate() print("5'3' Frame 1: \n" + protein) # Calculates all open reading frames in protein sequence for n in range(len(protein)): met = protein.find("M", n) stop = protein.find("*", met) orf = protein[met:stop] print("Open reading frame starting at residue " + str(met+1) + " : " + orf) nextmet = protein.find("M", stop) n += nextmet

3条回答

网友

1楼 · 编辑于 2024-09-27 23:26:22

接收重复的原因是使用for循环并将n增加1，而不是将n移到上一帧的末尾：

# Calculates all open reading frames in protein sequence
n = 0
length = len(protein)
while n < length:
    met = protein.find("M", n)
    stop = protein.find("*", met)
    if stop == -1:  # Stop is beyond boundary of protein
        break
    orf = protein[met:stop]
    print("Open reading frame starting at residue " + str(met+1) + " : " + orf)
    n = stop + 1

网友

2楼 · 编辑于 2024-09-27 23:26:22

import re
protein = "DIMGYF*GLTGSR*VLSSGWIRAQSCTECG*SSEAGVEVRGVRQTDRHSQPARSAV*SELQILFSFHLLSNCPELAPVAPGLVFRECPESLVSSRPREESPAAQALLTAAESSGTHAPAGGSRRAAAAAKNFPGWEDRRQVAESRSQLLQAFPAS*ASPRR*RPEGGGEPRKRRRTCAQLRSHRLLNLGEREPRLPGAPSP*QRRRGQVVGVRAAKTRRRPATAGSALIRSAGRAAALGSEFACGLRGTAAHEERSVSDRDFSKPGSARESTSKSAGGILINPALPGASW*GGRSGDDSQRVRALLEKLSLSKAPGGAGVPRLPQPCCGPETCARSPN*PHVK*RTVL*LQRWKRPSMTMPSTPRSSRPRADLMATVTPRS*"
for match in re.finditer('M([^\*]+)\*', protein):
    print match.start()+1, match.group()



>3 MGYF*
>358 MTMPSTPRSSRPRADLMATVTPRS*

如果M...M..*不是有效的结果，可以将M添加到禁止的字符：M([^\*M]+)\*。你知道吗

>3 MGYF*
>374 MATVTPRS*

网友

3楼 · 编辑于 2024-09-27 23:26:22

n += nextmet不会做您想要的事情，因为当控件返回到for循环的顶部时，n会重置为范围内的下一个数字。因此，您可以使用while循环，而不是使用for循环。例如

maxloop = len(protein)
n = 0
while n < maxloop:
    met = protein.find("M", n)
    if met == -1:
        break
    #etc 
    n = nextmet + 1

我把if语句放在那里，因为如果find找不到它的目标，它将返回-1。你知道吗

这里有一个更完整的演示，现在你给了我们一些数据来处理。你知道吗

protein = '''DIMGYF*GLTGSR*VLSSGWIRAQSCTECG*SSEAGVEVRGVRQTDRHSQPARSAV*
SELQILFSFHLLSNCPELAPVAPGLVFRECPESLVSSRPREESPAAQALLTAAESSGTHAPAGGSRRAAAAA
KNFPGWEDRRQVAESRSQLLQAFPAS*ASPRR*RPEGGGEPRKRRRTCAQLRSHRLLNLGEREPRLPGAPSP
*QRRRGQVVGVRAAKTRRRPATAGSALIRSAGRAAALGSEFACGLRGTAAHEERSVSDRDFSKPGSARESTS
KSAGGILINPALPGASW*GGRSGDDSQRVRALLEKLSLSKAPGGAGVPRLPQPCCGPETCARSPN*PHVK*
RTVL*LQRWKRPSMTMPSTPRSSRPRADLMATVTPRS*'''

#Get rid of newlines
protein = protein.replace('\n', '')

print("5'3' Frame 1:\n{0}\n".format(protein))

maxloop = len(protein)
n = 0
while n < maxloop:
    met = protein.find("M", n)
    if met == -1:
        break

    stop = protein.find("*", met)
    if stop == -1:
        print('Error: no * found for frame starting at residue', met + 1)
        break

    orf = protein[met:stop]
    print("Open reading frame starting at residue", met + 1, ":", orf)

    n = stop + 1

输出

 5'3' Frame 1:
DIMGYF*GLTGSR*VLSSGWIRAQSCTECG*SSEAGVEVRGVRQTDRHSQPARSAV*SELQILFSFHLLSNCPELAPVAPGLVFRECPESLVSSRPREESPAAQALLTAAESSGTHAPAGGSRRAAAAAKNFPGWEDRRQVAESRSQLLQAFPAS*ASPRR*RPEGGGEPRKRRRTCAQLRSHRLLNLGEREPRLPGAPSP*QRRRGQVVGVRAAKTRRRPATAGSALIRSAGRAAALGSEFACGLRGTAAHEERSVSDRDFSKPGSARESTSKSAGGILINPALPGASW*GGRSGDDSQRVRALLEKLSLSKAPGGAGVPRLPQPCCGPETCARSPN*PHVK*RTVL*LQRWKRPSMTMPSTPRSSRPRADLMATVTPRS*

Open reading frame starting at residue 3 : MGYF
Open reading frame starting at residue 358 : MTMPSTPRSSRPRADLMATVTPRS

相关问题更多 >

编程相关推荐

热门问题

热门文章