擅长:python、mysql、java
<p>UFEE代码是一个“零宽度不间断空格”字符,这不被<code>re</code>模块视为空格,因此使用带unicode和dotall标志的regex <code>r'\w+|[^\w\s]+'</code>的<code>PunktWordTokenizer()</code>将此字符识别为一个单词。如果不想手动删除字符,可以使用以下标记器:</p>
<pre><code>nltk.RegexpTokenizer(u'\w+|[^\w\s\ufeff]+')
</code></pre>