我正在写一个正则表达式来预处理一些tweet。很多时候我会遇到像hiiiii
或looove
之类的拼写,我试图把它们清理成hi
或love
来清理多个连续字符的用法。我的代码如下:
w = re.sub(r'[^\w\s]|(.)(?=\1)', '', w)
这完成了大部分工作,但它也清除了book
到bok
或deep
到dep
这样的单词。我想从这个模式中排除oo
和ee
。尝试过这样做:
w = re.sub(r'(?!oo)[^\w\s]|(.)(?=\1)', '', "book")
但这不管用。请帮忙。你知道吗
Tags:
这个正则表达式怎么样?你知道吗
Demo
相关问题 更多 >
编程相关推荐