2024-09-27 21:30:08 发布
网友
我有一个文本文件,我的脚本正在读取并从中获取最频繁的单词。然而,在这样做的过程中,在对源文本进行清理的过程中,它无法处理重音字符(在本例中,它们是úűűű)。在
这就是我现在所拥有的。在
str = re.sub(r'\W+', ' ', str)
这只是删除重音字符。我尝试过添加flags=re.U,但它以另一种方式扰乱了结果。我怀疑有一个简单的方法来解决我的问题,我一直在寻找,但没有成功,所以我求助于你。提前谢谢。在
flags=re.U
您需要使用正确的修饰符:
str = re.sub(ur'\W+', u' ', s, flags=re.UNICODE) ^^^^^^^^^^
见Python 2.x docs:
Make the \w, \W, \b, \B, \d, \D, \s and \S sequences dependent on the Unicode character properties database. Also enables non-ASCII matching for IGNORECASE.
\w
\W
\b
\B
\d
\D
\s
\S
以下是在线Python 2.7 demo:
您需要使用正确的修饰符:
见Python 2.x docs:
以下是在线Python 2.7 demo:
^{pr2}$相关问题 更多 >
编程相关推荐