擅长:python、mysql、java
<p>当然,这对行动计划来说太晚了,但我想我应该把这个答案留给其他人:</p>
<p>听起来你可能真正要问的是:我如何确保像“使命召唤”这样的复合短语组合在一起成为一种象征?在</p>
<p>可以使用nltk的多字表达式标记器,如下所示:</p>
<pre><code>string = 'My favorite game is call of duty'
tokenized_string = nltk.word_tokenize(string)
mwe = [('call', 'of', 'duty')]
mwe_tokenizer = nltk.tokenize.MWETokenizer(mwe)
tokenized_string = mwe_tokenizer.tokenize(tokenized_string)
</code></pre>
<p>其中<code>mwe</code>表示多单词表达式。<code>tokenized_string</code>的值将是<code>['My', 'favorite', 'game', 'is', 'call of duty']</code></p>