我的数据在列表中。你知道吗
data = [['Biz_Innovations', '#socialmedia'],
['ChantalGrange', '#aws'],
['beyonddevops', '#aws'],
['beyonddevops', '#socialmedia'],
['IBMNetezza', '#ibm'],
['IBMNetezza', '#analytics'],
['SandraFeinsmith', '#ibm'],
['SandraFeinsmith', '#analytics'],
['fleejack', '#healhcare'],
['bigdataweek', '#socialmedia'],
['sabumjung', '#aws']]
我想计算第二列中单词的频率(例如,#socialmedia,#aws),然后根据频率选择行。如果这个词在数据集中出现三次或更多次,我希望保留相应的行(其他行将被删除)。结果如下:
data = [['Biz_Innovations', '#socialmedia'],
['ChantalGrange', '#aws'],
['beyonddevops', '#aws'],
['beyonddevops', '#socialmedia'],
['bigdataweek', '#socialmedia'],
['sabumjung', '#aws']]
有什么建议吗?你知道吗
您可以使用
collections.Counter
来实现:相关问题 更多 >
编程相关推荐