从tweepy中提取数据

2024-10-02 10:32:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要从某人的twitter feed(非流媒体)收集某些信息: 1) 星期几发布了另一条微博的回复 2) 发布该回复的时间

我要做的是:

1)获取所需信息 2) 将该信息附加到数据帧 3) Groupby“星期一” 4) 每天检查并打印回复数量的柱状图。在

import datetime
import pandas as pd
from collections import Counter
celebrity = '@elonmusk'

def weekdayf(weekday):
    return{
        0: 'Monday',
        1: 'Tuesday',
        2: 'Wednesday',
        3: 'Thursday',
        4: 'Friday',
        5: 'Saturday',
        6: 'Sunday'
    }[weekday]

data = {'Day of the week': [],
        'Hour': []
       }    
df = pd.DataFrame(data)

for status in tweepy.Cursor(api.user_timeline, id = celebrity).items(150):
    #find responses
    if status.in_reply_to_status_id != None:
        data = {'Hour': [status.created_at.time().hour],
        'Day of the week': [weekdayf(status.created_at.weekday())]
       }
        df1 = pd.DataFrame(data)
        df = df.append(df1, ignore_index = True)

df = df.groupby(by = "Day of the week", as_index = True)

我的问题是:

我)我的groupby不起作用,我不知道为什么。我以前用过这种方法,没问题。我怎么修?在

II)我的朋友说附加是非常低效的。因此,我必须首先将所有的repplies放在dataframe中。 他的建议是:

^{pr2}$

附加是最好的方法吗?我不知道如何先把它放在数据帧中。Tweets是一个列表。在

非常感谢你的帮助。在


Tags: ofthe数据import信息dfdataas

热门问题