擅长:python、mysql、java
<p>请注意,在调用<code>RegexpTokenizer</code>时,只需使用一组参数创建类的实例(调用其<code>__init__</code>方法)。
为了用指定的模式实际标记dataframe列,必须调用其<a href="https://www.nltk.org/_modules/nltk/tokenize/regexp.html" rel="nofollow noreferrer">^{<cd3>}</a>方法:</p>
<pre><code>tokenizer = RegexpTokenizer("[\w']+")
df['all_cols'] = df['all_cols'].map(tokenizer.tokenize)
all_cols
0 [who, is, your, hero, and, why]
1 [what, do, you, do, to, relax]
...
</code></pre>