擅长:python、mysql、java
<p>不是所有你说的角色都是错误。U+FFFD是一个错误替换字符,这意味着某些解码步骤找不到要使用的字符。U+FF0C是一个全宽逗号,U+FF10是一个全宽零,这两个字符都是完全有效的字符,很可能是您要保留的字符。你知道吗</p>
<p>如果您愿意,可以删除它们:</p>
<pre><code>doc = mydoc.encode('charmap', 'ignore')
</code></pre>
<p>如果您不喜欢特定的Unicode字符,则:</p>
<pre><code>bad = set(u"\ufffd\uff10\uff0c") # etc
mydoc = u"".join(c for c in mydoc if c not in bad)
</code></pre>