擅长:python、mysql、java
<p>对于复杂的文本工作,最好使用<a href="https://www.nltk.org/" rel="nofollow noreferrer">NLTK</a>。它有许多好的文本算法,可以用来简化文本处理(请注意,它是一个相当大的库):</p>
<pre><code>import nltk
text = 'Hello! Hello hello, Hello and hello! Hello!'
tokenizer = nltk.WordPunctTokenizer()
tokenizer.tokenize(text)
</code></pre>
<blockquote>
<pre><code>['Hello',
'!',
'Hello',
'hello',
',',
'Hello',
'and',
'hello',
'!',
'Hello',
'!']
</code></pre>
</blockquote>