正则表达式排除特定的模式

2024-10-03 19:25:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在写一个正则表达式来预处理一些tweet。很多时候我会遇到像hiiiiilooove之类的拼写,我试图把它们清理成hilove来清理多个连续字符的用法。我的代码如下:

 w = re.sub(r'[^\w\s]|(.)(?=\1)', '', w)

这完成了大部分工作,但它也清除了bookbokdeepdep这样的单词。我想从这个模式中排除ooee。尝试过这样做:

w = re.sub(r'(?!oo)[^\w\s]|(.)(?=\1)', '', "book")

但这不管用。请帮忙。你知道吗


Tags: 代码re用法hi字符tweetoodeep