从Twitter数据中获取词频(按日期)

2024-09-30 12:34:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我有我过滤过的实时twitter流数据。看起来像这样:

2017-01-26印度RT@bnowalk:我希望在任的民主党人有一个南达科他州国家公园社交媒体实习生的勇气。在

2017-01-26印度,我没有非侵入性的。在

2017-01-27印度从零到分布式数据存储

2017-01-27印度梅赛德斯-奔驰Unimog-全能者via@myvan iu com

2017-01-27印度RT@TONewcomer:有兴趣指导一个新来者或难民艺术家?联系@NANToronto@torontarts@TOArtsFdn\cdnimm

2017-01-28印度我的女王,我的环球小姐2016。玛克辛女王,祝你好运2016年菲律宾小姐4亩

2017-01-28印度2人跟踪我,1人未跟踪我//自动检查

2017-01-28印度多重性伴侣

我希望我的输出如下所示:

2017年1月27日2

2017-01-28 3

2017-01-26 3

这是我至今所写的:

total = 0

with open('pp.txt') as f:
    for line in f:
        finded = line.find('india')
        if finded != -1 and finded != 0:
            total += 1

print (total)

我不知道如何从这里得到“印度”这个词在某个特定日期的出现频率。在

任何帮助都将不胜感激。谢谢您。在


Tags: 数据linetwitter国家媒体社交totalrt
1条回答
网友
1楼 · 发布于 2024-09-30 12:34:28

好吧,你需要有一个方法来储存这些日期,所以我们需要一些容器。我要用字典

date_dict = dict()

with open(with open('pp.txt') as f:
    for line in f:
        date = line[0:10]
        india_count = line.lower().count('india'):
        if date in date_dict:
            date_dict[date] += india_count
        else:
            date_dict[date] = india_count

这样就把你的日期和频率输入到一个数据结构中。但要想把它弄出来,你需要根据自己的需要重新组织一下

因此,让我们将数据转换为元组列表,然后按日期对其进行排序:

首先将日期和频率放入一个列表中-我们将为字典中的每个键(日期)创建一个元组列表,值将是单词india的频率。在

^{pr2}$

然后按日期排序-这里我们按每个元组中的第一(0)个值排序

my_dates.sort(key=lambda tup: tup[0])

相关问题 更多 >

    热门问题