如何在正则表达式中包含重音词

La cinta, que hoy se estrena en nuestro país, competirá contra Hors la Loi, de Argelia, Dogtooth, de Grecia, Incendies, de Canadá, Life above all , de Sudáfrica, y con la ganadora del Globo de Oro, In A Better World, de Dinamarca.

>>> import re >>> def blind_CAPS_without_first_word(text): ... first_word, _, the_rest = text.partition(' ') ... blinded = re.sub('(?:[A-Z][\w]+\s*)', ' #NE# ', the_rest) ... return " ".join([first_word, blinded]) ... >>> text = "La cinta, que hoy se estrena en nuestro país, competirá contra Hors la Loi, de Argelia, Dogtooth, de Grecia, Incendies, de Canadá, Life above all , de Sudáfrica, y con la ganadora del Globo de Oro, In A Better World, de Dinamarca." >>> blind_CAPS_without_first_word(text)

2条回答

网友

1楼 · 编辑于 2024-06-29 01:13:05

因为\w+或{}与重音字符不匹配。所以它不能匹配这些词。在

您可以使用\S+代替\w+

re.sub(r'[A-Z]\S+\s*', ' #NE# ', the_rest)

或

如果只想匹配任何语言的单词字符，请使用regex模块。在

^{pr2}$

网友

2楼 · 编辑于 2024-06-29 01:13:05

有没有可能使用unicode符号来捕获字符范围？例如：[\xC0-\xE1]或其他什么？我按Pythex运行它，它似乎并不介意。。。你需要找到自己的射程，但这只是个开始：）

希望这有帮助。在

相关问题更多 >

编程相关推荐

热门问题

热门文章