我有一个pandas数据帧df
,有一个字符串列Posts
,类似于:
df['Posts']
0 "This is an example #tag1"
1 "This too is an example #tag1 #tag2"
2 "Yup, still an example #tag1 #tag1 #tag3"
当我试图用下面的代码计算
^{pr2}$
我明白了
#tag1 4
#tag2 1
#tag3 1
但我需要的结果是每行唯一的hashtags计数,如下所示:
#tag1 3
#tag2 1
#tag3 1
Tags:
这是一个使用
itertools.chain
和collections.Counter
的解决方案:绩效基准
对于大型系列,
^{pr2}$collections.Counter
的速度是pd.Series.str.extractall
的2倍:使用
drop_duplicates
删除每个帖子中的重复标记,然后可以使用value_counts
更短的备选方案,其中
^{pr2}$level=0
被传递给reset_index
两者都将输出:
相关问题 更多 >
编程相关推荐