我在csv文件的一个单列中有一个数据,格式如下。在
['hhcb', 'hcbc', 'cbcc', 'bccc', 'cccd', 'ccdd', 'cddh']
['fahb', 'ahba', 'hbac', 'bacc']
['hchc', 'chcb', 'hcbh']
['hhhh', 'hhhh', 'hhhc', 'hhcd', 'hcdc', 'cdcc']
['habb', 'abbb', 'bbbb', 'bbbc', 'bbcc', 'bccd', 'ccdh', 'cdhd']
我必须找到这个数据中出现最多的四个长度的字符串。 请指点路。 (举个例子,原始数据很大)
有一个办法。在
用
.sum()
操作来作弊,它将加入列表。在您可以使用
Counter
,为长度为4的每个单词更新它。然后使用most_common()
来获取顶部值。在计时
^{pr2}$您可以尝试使用^{} },然后^{} 和{a3}。最后一个可能的过滤器顶值是按^{} 或
Series
创建{[:5]
:编辑:
如果您需要在每一行中使用top} :
^{pr2}$5
,请使用^{相关问题 更多 >
编程相关推荐