查找regex、unicode模式

2024-10-01 11:26:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在努力搜寻一个有unicode字符的网站。我在一开始就声明了-*- coding: utf-8 -*-,并且我使用了re.UNICODE标志

pattern = re.compile('(?:{}|{})'.format(regex, regex1), re.UNICODE)

然而,当我打印输出时,仍然会得到那些奇怪的字符,比如

我该怎么修?谢谢!你知道吗


Tags: reformat声明网站标志unicode字符utf
2条回答

仅仅因为页面有非拉丁字符并不意味着它是用unicode编码的(还有,哪个unicode编码?utf-8?utf-16?)。你知道吗

另外,^{}可能不会做你认为它做的事情。从文档中:

Make `\w, \W, \b, \B, \d, \D, \s` and `\S` dependent on the Unicode character properties database.

所有这一切意味着这些特定的字符类被更广泛地定义,它对源文本没有任何影响。你知道吗

而且,coding definition-*- coding: utf-8 -*-只指定源文件的编码。你知道吗

最后,正如在其中一条评论中所指出的,可能是因为使用了当前字体不支持的字符。反过来,这可能是假定某个编码而文本以不同的编码方式编码的结果。你知道吗

这本身可能不是一个“答案”。。但是您可以尝试使用http://www.debuggex.com调试一下regexp。你知道吗

相关问题 更多 >