回答此问题可获得 20 贡献值,回答如果被采纳可获得 50 分。
<p>我正在对一个充满句子的文本文件执行数据清理任务。在完成这些句子的词干后,我想得到词干列表中单词的频率。然而,我遇到了一个问题,当打印词干列表时,我会为每个句子获取一个列表,如下所示:</p>
<pre><code>[u'anyon', u'think', u'forgotten', u'day', u'parti', u'friend', u'friend', u'paymast', u'us', u'longer', u'memori']
[u'valu', u'friend', u'bought', u'properti', u'actual', u'relev', u'repres', u'actual', u'valu', u'properti']
[u'monster', u'wreck', u'reef', u'cargo', u'vessel', u'week', u'passeng', u'ship', u'least', u'24', u'hour', u'upload', u'com']
</code></pre>
<p>我想获得所有单词的频率,但我仅通过使用以下代码获得每个句子的频率:</p>
^{pr2}$
<p>这将产生以下输出:
<strong>朋友;2</strong>
桅杆;1
更长;1
备忘录;1
第一部分
美国;1
天;1
安永;1
遗忘;1
思考;1
实际;2
财产;2
价值;2
<strong>朋友;1</strong>
抑制;1
第1条
购买;1
周;1
货物;1
怪物;1
小时;1
沉船;1
上传;1
乘客;1
最少;1
暗礁;1
24;1
容器;1
船舶;1
通讯;1
在;1
面积;1
领土;1
自定义;1
水;1
3、 1</p>
<p>因为“朋友”这个词是在两个不同的句子中出现的,所以被计算了两次。我怎样才能使它计数为朋友一次并显示朋友;在这种情况下是3?在</p>