擅长:python、mysql、java
<p><code>all_comments</code>是<code>type</code><code>str</code>还是{<cd4>}?如果它是<code>unicode</code>类型并且字符打印正确,那么正则表达式应该可以工作。在</p>
<p>如果字符串是<code>str</code>类型,则需要使用正确的编码对其进行编码。假设您的编码是UTF-8,这将起作用:</p>
<pre><code>filtered_comments = re.sub("[^\x30-\xFF]", " ", all_comments.decode('utf-8'))
</code></pre>
<p>另一件要注意的事情是:您<code>^\x30-\xFF</code>匹配<code>!</code>和{<cd9>}以及{<cd10>}以下的许多其他符号。也许你想要<code>^\x20-\xFF</code>,因为<code>\x20</code>是空间,它几乎是最低的典型ASCII字符?在</p>