擅长:python、mysql、java
<p>仅仅因为页面有非拉丁字符并不意味着它是用unicode编码的(还有,哪个unicode编码?utf-8?utf-16?)。你知道吗</p>
<p>另外,<a href="http://docs.python.org/2/library/re.html#re.UNICODE" rel="nofollow">^{<cd1>}</a>可能不会做你认为它做的事情。从文档中:</p>
<blockquote>Make `\w, \W, \b, \B, \d, \D, \s` and `\S` dependent on the Unicode character properties database.</blockquote>
<p>所有这一切意味着这些特定的字符类被更广泛地定义,它对源文本没有任何影响。你知道吗</p>
<p>而且,<a href="http://www.python.org/dev/peps/pep-0263/" rel="nofollow">coding definition</a>,<code>-*- coding: utf-8 -*-</code>只指定源文件<em>的编码。你知道吗</p>
<p>最后,正如在其中一条评论中所指出的,可能是因为使用了当前字体不支持的字符。反过来,这可能是假定某个编码而文本以不同的编码方式编码的结果。你知道吗</p>