混合语言单词的endoftheword正则表达式（在python2中）

1条回答

网友

1楼 · 发布于 2024-10-03 06:31:06

您需要编译带有re.UNICODE标志的正则表达式，以使\b能够识别Unicode。另外，请记住，您使用的所有字符串都必须是Unicode。你知道吗

以下是如何修复替换代码：

# -*- coding: utf-8 -*-
import re
text = ur"הmאפrקt boom sam"
result = re.sub(ur'm\b', u'X', text, 0, re.UNICODE).encode("utf8")
print(result)

参见online Python 2 demo。你知道吗

下面是一个匹配的片段：

# -*- coding: utf-8 -*-
import re
s = "הmאפrקt sam"
match = re.search(ur'\w*m\b', s.decode('utf8'), flags=re.UNICODE)
if match:
    print(match.group(0).encode("utf8"))

一个re.findall的例子证明只有一个匹配：

print([x.encode("utf8") for x in re.findall(ur'\w*m\b', s.decode('utf8'), flags=re.UNICODE)])
# => ['sam']

参见Python 2 online demo。你知道吗

编程相关推荐

java中的标签是用来制作意大利面代码的吗？
如何经营一家公司。压缩后eclipse中的java文件？
Java将双精度四舍五入将截断零
java使用定制的standalonefull。带arquillian的xml
java如何从hbase列读取日期、时间和时间戳
java在返回规范<SomeEntity>（spring，jpa）中仅包含具有true boolean字段的实体
java Ui strucking Firebase Firestore删除数据？
遇到Java数组索引错误
java使用Stanford语法分析器获得句子的K最佳语法分析
TLSPackage后的java神秘字节

相关问题更多 >

编程相关推荐

热门问题

热门文章

混合语言单词的endoftheword正则表达式（在python2中）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >