Pandas:词频按月份

2024-10-06 07:15:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我在探索这样一个数据库

excerpt from the database I'm working on

所以基本上这是一个Youtube评论的集合,我已经开始分析:我已经设法通过评论来计算广告栏的字数,以及另一个ngrams(我打算稍后再探讨)。 我已经成功地得到了整个期间10个最常使用的单词的列表,但是我无法得到每个月的单词频率:对于每个月,我想得到10个最常使用的单词的列表。你知道吗

谢谢你的帮助!你知道吗


Tags: 数据库列表youtube评论单词频率ngrams字数
1条回答
网友
1楼 · 发布于 2024-10-06 07:15:03

我希望你能试试这个

作为pd导入 从集合导入计数器

选项1:

df=df.set_index(df['at'])
for u,v in df.groupby(pd.Grouper(freq="M")):
    words=sum(v['text'].str.split(' ').values.tolist(),[])
    c = Counter(words)
    print c.most_common(10)

选项2:

df=df.set_index(df['at'])
for u,v in df.groupby(pd.Grouper(freq="M")):
    words=sum(v['text'].str.split(' ').values.tolist(),[])
    top_words=pd.Series(words).value_counts()[:10]
    print top_words.index.tolist()

相关问题 更多 >