假设我正在尝试创建一些stackoverflow元数据的count向量(实际上不是我所做的,而是类似的)。所以数据帧可能是这样的:
question: description: tags:
Q1 desc1 java, android
Q2 desc2 python, machine learning
Q3 desc3 javascript, Node.js
如果我想用每个单独的标签而不是标签的组合来创建频率计数,我该怎么做?在
我知道我可以使用df.groupby('tags').count()
,但这只考虑java, android
是它自己的类别,而不是考虑{
您可以使用^{} by regex } 创建{},最后一次按^{} 获取计数:
,s\+
表示带有一个或多个空格的逗号,然后按^{相关问题 更多 >
编程相关推荐