使用groupby进行单词计数然后使用python循环出现的问题

lodgement_year trademark_text 1906 PEPS 1906 BILE BEANS FOR BILIOUSNESS B 1906 ZAM-BUK Z lodgement_year 1906 {PEPS BILE BEANS FOR BILIOUSNESS B ZAM-BUK Z Z... 1907 {WHS CHERUB BLACK & WHITE SOUTHERN CROSS HISTO...

1906 [('.', 24), ("'s", 22), ('star', 18), ('&', 15), ('kodak', 12), ('co', 9), ('the', 9), ('brand', 8), ('express', 8), ('anchor', 6)] 1907 [('&', 11), ("'s", 11), ('brand', 11), ('pinnacle', 7), ('vaseline', 7), ('the', 6), ('.', 5), ('co.', 5), ('kepler', 5), ('lucas', 5)]

1条回答

网友

1楼 · 发布于 2024-09-29 01:26:02

可以首先按lodgement变量对DF进行分组，然后迭代名称组对，执行另一个groupby，最后连接结果。在

import pandas as pd
from collections import Counter
df = pd.DataFrame({'lodg':[1,2,1,3,1,2,2,3,1,1],
               'text':['x y z','y y','x y','z x','y x','y y z','x z','x x','x x','y z']})
grouped = df.groupby('lodg')
joined = []
for name, group in grouped:
    texts = " ".join(group['text'])
    groupCounts = Counter(texts.split(" ")).items()
    joined.append([name, [texts], groupCounts])
groupedJoined = pd.DataFrame(joined, columns = ['lodg','texts','textCounts'])

结果：

^{pr2}$

在显式解之后，只需要一点时间就可以得到1-线性lambda解。在

两个羔羊：

df.groupby('lodg')['text'].apply(lambda x: "%s" % ' '.join(x)).apply(lambda x: Counter(x.split(" ")).items())

单λ：

df.groupby('lodg')['text'].apply(lambda x: Counter((' '.join(x)).split(" ")).items())

两者产生相同的结果：

Out[62]: 
lodg
1    [(y, 4), (x, 5), (z, 2)]
2    [(y, 4), (x, 1), (z, 2)]
3            [(x, 3), (z, 1)]
Name: text, dtype: object

现在，如果您不想处理未命名的列（实际上称为index），请将结果命名为res，然后执行res.reset_index()来获得：

In [68]: res.reset_index()
Out[68]: 
   lodg                      text
0     1  [(y, 4), (x, 5), (z, 2)]
1     2  [(y, 4), (x, 1), (z, 2)]
2     3          [(x, 3), (z, 1)]

这应该更容易理解。在

相关问题更多 >

编程相关推荐

热门问题

热门文章