使用Python搜索字符串中一个单词连续出现的次数（PSET6 CS50）

#Header line of csv : name,AGATC,AATG,TATC # so checkstr = [AGATC,AATG,TATC] #Example of searched strings `GCTAAATTTGTTCAGCCAGATGTAGGCTTACAAATCAAGCTGTCCGCTCGGCACGGCCTACACACGTCGTGTAACTACAACAGCTAGTTAATCTGGATATCACCATGACCGAATCATAGATTTCGCCTTAAGGAGCTTTACCATGGCTTGGGATCCAATACTAAGGGCTCGACCTAGGCGAATGAGTTTCAGGTTGGCAATCAGCAACGCTCGCCATCCGGACGACGGCTTACAGTTAGTAGCATAGTACGCGATTTTCGGGAAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGTATCTATCTATCTATCTATCT`

checkstr = [] #global array that tells us what str to read def readtxt(csvfile,seq): with open(f'{csvfile}','r') as p:#finding which str to read from header line of the csv header = csv.reader(p) for row in header: checkstr = row[1:] break with open(f'{seq}','r') as f:#searching the text for strs readed = f.read() for j in checkstr: n = 1 jnew = n * j while True: if jnew in readed: n += 1 print(f"{jnew} and {n}") break else: break

1条回答

网友

1楼 · 发布于 2024-09-29 02:26:27

它的工作原理是，将字符串按子字符串拆分将在连续的子字符串上返回空字符串。例如：

s = 'abbcd'
s.split('b')
['a', '', 'cd']

在本例中abbcd中连续的b数是空字符串的计数加上1（在本例中为2）

在此基础上，我们可以使用itertools groupby来计算分割字符串中每组文本出现的次数，这是前面代码的结果，这意味着如果我们计算列表中''出现的次数并添加一次，我们将得到您的答案。try/except语句用于处理子字符串不在字符串中且结果计数为空的实例

from itertools import groupby

checkstr = ['AGATC', 'AATG', 'TATC']
s = 'GCTAAATTTGTTCAGCCAGATGTAGGCTTACAAATCAAGCTGTCCGCTCGGCACGGCCTACACACGTCGTGTAACTACAACAGCTAGTTAATCTGGATATCACCATGACCGAATCATAGATTTCGCCTTAAGGAGCTTTACCATGGCTTGGGATCCAATACTAAGGGCTCGACCTAGGCGAATGAGTTTCAGGTTGGCAATCAGCAACGCTCGCCATCCGGACGACGGCTTACAGTTAGTAGCATAGTACGCGATTTTCGGGAAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGAATGTATCTATCTATCTATCTATCT'
for c in checkstr:
    groups = groupby(s.split(c))
    try:
        print(c,[sum(1 for _ in group)+1 for label, group in groups if label==''][0])
    except IndexError:
        print(c,0)

输出

AGATC 0
AATG 43
TATC 5

相关问题更多 >

编程相关推荐

热门问题

热门文章