擅长:python、mysql、java
<p>您有拉丁语-1或Windows代码页1252字节,而不是Unicode文本。解码输入:</p>
<pre><code>tokens = re.findall(r'\w+', mystring.decode('cp1252'), re.UNICODE)
</code></pre>
<p>编码字节可以表示任何内容,这取决于所使用的编解码器,它不是特定的Unicode码位。对于字节字符串(类型<code>str</code>),使用<code>\w</code>时只能匹配ASCII字符。在</p>