擅长:python、mysql、java
<p>有比regex更好的工具用于此作业,您可以尝试例如:</p>
<pre><code>>>> line
'(13)\xc2\xb5\xc2\xb1\xc2\xbe\xc3\xa2p\xc3\xb4\xc2\x8d(5)example(3)com(0)'
>>> line.decode('ascii', 'ignore')
u'(13)p(5)example(3)com(0)'
</code></pre>
<p>跳过非ascii字符。或者使用replace,可以将它们替换为“?”占位符:</p>
^{pr2}$
<p>但是最好的解决方案是首先找出是什么错误的编码/解码导致<a href="https://en.wikipedia.org/wiki/Mojibake" rel="nofollow noreferrer">mojibake</a>发生,这样就可以通过使用正确的代码页来恢复数据。</p>
<p>关于取消emojibake<a href="https://stackoverflow.com/a/24141326/674039">here</a>,有一个很好的答案。请注意,这是一门不精确的科学,很多关键信息实际上都在答案下面的评论帖子中。</p>