如何使用Tweepy在特定日期获得tweets?

2024-10-17 06:29:43 发布

您现在位置:Python中文网/ 问答频道 /正文

如何使用Tweepy在特定日期获取tweets

我写的代码是这样的(jupyter):

import tweepy as tw 
import xlsxwriter
import datetime 
import pandas as pd
consumer_key="#"
consumer_secret="#"
access_key="#"
access_secret="#"
try:
 auth = tw.OAuthHandler(consumer_key, consumer_secret)
 auth.set_access_token(access_key, access_secret)
 auth.get_authorization_url()
 api = tw.API(auth,wait_on_rate_limit=True,wait_on_rate_limit_notify=True,compression=True,retry_count=3,retry_delay=10,timeout=15)
except tw.TweepError:
 print ('Error')

name="mahfiegilmez"

startDate = datetime.datetime(2018, 6, 24, 0, 0, 0)
endDate =   datetime.datetime(2018, 12, 31, 23, 59, 59)

say=0
tweets = []
from time import sleep
tmpTweets = api.user_timeline(name,count=200,tweet_mode="extended",lang="tr")

for tweet in tmpTweets:
        if tweet.created_at < endDate and tweet.created_at > startDate:
            tweets.append(tweet)

lastTweet = tmpTweets[-1].id
while (tmpTweets[-1].created_at > startDate):
    print("Sonraki Tweet @", tmpTweets[-1].created_at,say)

    tmpTweets = api.user_timeline(name,max_id = tmpTweets[-1].id,tweet_mode="extended")
    if lastTweet == tmpTweets[-1].id:
        print("lastTweet")
        sleep(15)
    else:
        for tweet in tmpTweets:
            if tweet.created_at < endDate and tweet.created_at > startDate:
                tweets.append(tweet)
    lastTweet = tmpTweets[-1].id
    say+=1

下一节:

tweets2=[]
tweets.reverse()
for x in tweets:
    if(x.in_reply_to_status_id==None) or (x.in_reply_to_screen_name==name):
        if (not x.retweeted) and ("RT @" not in x.full_text):
            tweets2.append(x)

比如:

  • 下一条微博@2019-02-15 13:33:26 1095106703098605568 157
  • 下一条微博@2019-02-11 23:45:58 1094442196500209666 158
  • 下一条微博@2019-02-10 03:45:28 1094441678889463809 159
  • 下一条微博@2019-02-10 03:43:241094441678889463809 160
  • 下一条微博@2019-02-10 03:43:241094441678889463809 161
  • 下一条微博@2019-02-10 03:43:241094441678889463809 162
  • 下一条微博@2019-02-10 03:43:241094441678889463809 ..... 你知道吗

我该怎么解决这个问题?你知道吗

最后给出了这个误差。你知道吗

> IndexError                                Traceback (most recent call
> last) <ipython-input-9-46264abdd8ef> in <module>
>       9         tweets.append(tweet)
>      10 
> ---> 11 while (tmpTweets[-1].created_at > startDate):
>      12     print("Last Tweet @", tmpTweets[-1].created_at, " - fetching some more")
>      13     tmpTweets = api.user_timeline(username, max_id = tmpTweets[-1].id)
> 
> IndexError: list index out of range

Tags: nameinimportiddatetimeifaccessconsumer
1条回答
网友
1楼 · 发布于 2024-10-17 06:29:43

更好的方法是为^{}方法/GET statuses/user_timeline端点使用since_idmax_id参数,而不是发出大量不必要的请求来循环处理时间范围之外的大量tweet。您还应该考虑改用^{}。你知道吗

您遇到的错误很可能是因为该帐户自startDate指定的时间以来有超过3200条tweet。你知道吗

This method can only return up to 3,200 of a user's most recent Tweets.

https://developer.twitter.com/en/docs/tweets/timelines/api-reference/get-statuses-user_timeline

因此,一旦完成了最近3200条tweet,对方法/端点的下一次调用将为tmpTweets分配一个空列表。当您尝试在print语句中索引tmpTweets时,它就会出错。您的回溯似乎与您的代码片段有不同的代码。如果print语句不存在,那么当您尝试在while条件下索引tmpTweets时就会出错,就像在回溯中一样。你知道吗

相关问题 更多 >