如何删除已重复三次或三次以上的单词中的替换

2024-09-29 23:22:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用文本数据进行预处理。有些单词的字母是重复的,我必须改正它们。
例如下面的句子:

sentence = 'likeeeee sooooo looovvve hmmmmmmm'

必须更改为:

sentence = 'like so love hm'

有人能帮忙吗


Tags: 数据文本so字母单词sentencelike句子
2条回答

您可以使用正则表达式和lookaheads,如下所示。请随便问任何问题,我会尽力帮助你

import re

s = 'likeeeee sooooo looovvve hmmmmmmm'
print(re.sub(r"(.)(?=\1)","",s))

可以使用正则表达式

import re

sentence = 'likeeeee sooooo looovvve hmmmmmmm'

for m in re.findall(r"(\w)\1{2,}", sentence):
    s = m + m
    while s in sentence:
        sentence = sentence.replace(s, m)

print(sentence)

输出

like so love hm

相关问题 更多 >

    热门问题