如何从重复的字符串中提取单词

3条回答

网友

1楼 · 编辑于 2024-06-26 00:13:43

这是一种更为自然的方法，使用简单的迭代

它的时间复杂度为O（n）。

它使用一个外部循环来迭代搜索键中的字符，然后使用一个内部while循环来消耗搜索字符串中该字符的所有匹配项，同时维护一个计数器。一旦当前字母的所有连续出现都被消耗，它会将minLetterCount更新为其先前值或此新计数的最小值。一旦我们遍历了键中的所有字母，我们将返回这个累积的最小值

def countCompleteSequenceOccurences(searchString, key):
    left = 0
    minLetterCount = 0
    letterCount = 0
    for i, searchChar in enumerate(key):
        while left < len(searchString) and searchString[left] == searchChar:
            letterCount += 1
            left += 1
        
        minLetterCount = letterCount if i == 0 else min(minLetterCount, letterCount)
        letterCount = 0
        
    return minLetterCount

测试：

testCasesToOracles = {
    "aaaaaaappppppprrrrrriiiiiilll": 3,
    "ppppppprrrrrriiiiiilll": 0,
    "aaaaaaappppppprrrrrriiiiii": 0,
    "aaaaaaapppppppzzzrrrrrriiiiiilll": 0,
    "pppppppaaaaaaarrrrrriiiiiilll": 0,
    "zaaaaaaappppppprrrrrriiiiiilll": 3,
    "zzzaaaaaaappppppprrrrrriiiiiilll": 3,
    "aaaaaaappppppprrrrrriiiiiilllzzz": 3,
    "zzzaaaaaaappppppprrrrrriiiiiilllzzz": 3,
}

key = "april"
for case, oracle in testCasesToOracles.items():
    result = countCompleteSequenceOccurences(case, key)
    assert result == oracle

用法：

key = "april"
result = countCompleteSequenceOccurences("aaaaaaappppppprrrrrriiiiiilll", key)
print(result * key)

输出：

aprilaprilapril

网友

2楼 · 编辑于 2024-06-26 00:13:43

使用正则表达式怎么样

import re

word = 'april'
text = 'aaaaaaappppppprrrrrriiiiiilll'

regex = "".join(f"({c}+)" for c in word)
match = re.match(regex, text)

if match:
    # Find the lowest amount of character repeats
    lowest_amount = min(len(g) for g in match.groups())
    print(word * lowest_amount)
else:
    print("no match")

产出：

aprilaprilapril

很有魅力

网友

3楼 · 编辑于 2024-06-26 00:13:43

一种方法是使用itertools.groupby将字符单独分组，并使用zip将其解包并迭代n次，因为n是最小组中的字符数（即字符数最少的组）

from itertools import groupby
'aaaaaaappppppprrrrrriiiiiilll'
result = ''
for each in zip(*[list(g) for k, g in groupby('aaaaaaappppppprrrrrriiiiiilll')]):
    result += ''.join(each)

# result = 'aprilaprilapril'

另一种可能的解决方案是创建一个自定义计数器，用于计算每个唯一的字符序列（请注意，此方法仅适用于Python 3.6+，对于较低版本的Python，不保证字典的顺序）：

def getCounts(strng):
    if not strng:
        return [], 0
    counts = {}
    current = strng[0]
    for c in strng:
        if c in counts.keys():
            if current==c:
                counts[c] += 1
        else:
            current = c
            counts[c] = 1
    return counts.keys(), min(counts.values())

result = ''
counts=getCounts('aaaaaaappppppprrrrrriiiiiilll')
for i in range(counts[1]):
    result += ''.join(counts[0])

# result = 'aprilaprilapril'

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何从重复的字符串中提取单词

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >