<p>换一种方式就容易多了。从<code>Counter</code>对象开始构建数据帧</p>
<pre><code>from collections import Counter
text = '''états-unis : lancement réussi pour station space x dragon états-unis : lancement réussi pour space x dragon la fusée falcon 9, développée par une société privée : spacex, a décollé de la station sans problème ce matin à 7h44 utc. 22 mai 2012. - prévu initialement pour samedi dernier, le lancement a été reporté à la dernière seconde, suite à la défaillance d'une valve dans un des neuf moteurs du pre\xadmier étage du lan\xadceur. le lanceur a décollé du site de lancement du pas de tir 40 (slc-40) de la base de cape canaveral en floride, qui était autrefois utilisé pour les fusée titan iii et iv et qui a été reconverti pour ce lanceur.'''
# naive splitting, it might be better to use regex with \b
c = Counter(text.split())
df = pd.DataFrame(list(c.items()), columns=['word', 'count'])
print(df.head())
</code></pre>
<p>输出</p>
<pre><code> word count
0 états-unis 2
1 : 3
2 lancement 4
3 réussi 2
4 pour 5
</code></pre>
<p>然后可以过滤dataframe中需要的单词(或者在构建dataframe时进行过滤)。你知道吗</p>