如何在Python中使用正则表达式在字符串中查找重复的子字符串？

网友

1楼 · 编辑于 2024-05-20 21:37:20

这是查找匹配子序列的另一种方法

re.findall("(?:AGA)+", "AATGAGAAGAAGATCCTAGAAGAAGAAGAAGACGAT")

网友

2楼 · 编辑于 2024-05-20 21:37:20

可以将第一个匹配项用于以下正则表达式：

r'((?:AGA)+)(?!.*\1)'

Python code_{^<“\(ツ) /'^>；}Start your engine!

Python的正则表达式引擎执行以下操作

(          : begin capture group 1
  (?:AGA)  : match 'AGA' in a non-capture group
  +        : execute non-capture group 1+ times
)          : end capture group 1
(?!        : begin negative lookahead
  .*       : match any character other than line terminators 0+ times 
  \1       : match contents of capture group 1
)          : end negative lookahead

如果后面的字符串中有另一个"AGA"字符串至少与候选字符串一样长，则拒绝该候选字符串"AGA"

可能存在多个匹配项。例如，如果字符串

AGAAGAAGATAGATAGAAGATAGA
^^^^^^^^^     ^^^^^^ ^^^

正如我在派对礼帽上指出的那样，将有三场比赛。由于比赛的长度从左到右始终不减少，因此没有一场比赛会比第一场比赛长。因此，我们可以选择第一场比赛

如果想要识别所有最长的匹配项（如果有多个匹配项具有最长的长度），可以使用上面的正则表达式获得四个匹配项，然后将字符串与正则表达式匹配

网友

3楼 · 编辑于 2024-05-20 21:37:20

您可以使用表达式((AGA)\2*)（regex101）：

例如：

s = 'AATGAGAAGAAGATCCTAGAAGAAGAAGAAGACGAT'

to_find = 'AGA'

m = max(re.findall(r'(({})\2*)'.format(to_find), s), key=lambda k: k[0])[0]
print(m, len(m) // len(to_find))

印刷品：

AGAAGAAGAAGAAGA 5

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在Python中使用正则表达式在字符串中查找重复的子字符串？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >