擅长:python、mysql、java
<p>(针对上面的注释):此代码转换所有看起来像utf8的代码,并保留其他代码点:</p>
<pre><code>a = u'\u0420\u0443\u0441 utf:\xd0\xb5\xd0\xba bytes:bl\xe4\xe4'
def convert(s):
try:
return s.group(0).encode('latin1').decode('utf8')
except:
return s.group(0)
import re
a = re.sub(r'[\x80-\xFF]+', convert, a)
print a.encode('utf8')
</code></pre>
<p>结果:</p>
<pre><code>Рус utf:ек bytes:blää
</code></pre>