Python字母数字unicode regex未按预期工作

1条回答

网友

1楼 · 发布于 2024-10-04 05:32:43

您的第一个示例str1匹配得很好；\w包括所有Unicode单词字符，包括带重音符号的拉丁字符。在

可以使用^{}将字符串规范化为组合形式，使用NFC形式：

>>> import re
>>> import unicodedata
>>> str1 = '9 Melod\xeda.de_la-monta\xf1a'
>>> str2 = '9 Melodi\u0301a.de_la-montan\u0303a'
>>> reg = re.compile("^[\w\.\- ]+$")
>>> reg.search(str1)
<_sre.SRE_Match object; span=(0, 23), match='9 Melodía.de_la-montaña'>
>>> reg.search(str2) is None
True
>>> reg.search(unicodedata.normalize('NFC', str2))
<_sre.SRE_Match object; span=(0, 23), match='9 Melodía.de_la-montaña'>

注意，re.IGNORECASE标志不需要，\w不关心大小写。在

编程相关推荐

java如何使用同级对象的属性执行对象的JSON反序列化？
java在NetBeans的JTextArea中显示Sql列
java为什么是服务。Android中的onBind抽象
java Spring Boot web应用程序如何验证另一个字段所需的表单字段？
java为什么我需要Hibernate中的事务来执行只读操作？
java维度，仅更改宽度/高度
mocking Mockito Java 8参数匹配器any（类<T>）
libgdx中的java渲染Box2D链形状
java找不到符号：方法getFactory（）
java在Maven中运行JUnit测试，无需构建和复制文件

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python字母数字unicode regex未按预期工作

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >