2024-09-29 23:22:56 发布
网友
我正在使用文本数据进行预处理。有些单词的字母是重复的,我必须改正它们。 例如下面的句子:
sentence = 'likeeeee sooooo looovvve hmmmmmmm'
必须更改为:
sentence = 'like so love hm'
有人能帮忙吗
您可以使用正则表达式和lookaheads,如下所示。请随便问任何问题,我会尽力帮助你
import re s = 'likeeeee sooooo looovvve hmmmmmmm' print(re.sub(r"(.)(?=\1)","",s))
可以使用正则表达式
import re sentence = 'likeeeee sooooo looovvve hmmmmmmm' for m in re.findall(r"(\w)\1{2,}", sentence): s = m + m while s in sentence: sentence = sentence.replace(s, m) print(sentence)
输出
like so love hm
您可以使用正则表达式和lookaheads,如下所示。请随便问任何问题,我会尽力帮助你
可以使用正则表达式
输出
相关问题 更多 >
编程相关推荐