使用Scrapy从item pipeline发出带有较长下载延迟的http请求

2024-09-27 21:25:20 发布

男 | 程序猿一只，喜欢编程写python代码。

我想使用pythonwebscraping框架scrapy从视频库网站下载视频元数据和视频本身，并将它们写入本地存储。我不想惹麻烦（或者冒着被列入黑名单的危险！）所以我也想利用长时间的下载延迟。更具体地说，我希望大视频请求的下载延迟更长，元数据请求的下载延迟更短。

我已经看过了这些糟糕的文档，将视频文件作为项目管道的一部分下载似乎是明智的。到目前为止，我已经将每个视频剪辑的元数据设置为延迟5秒（使用设置.py)元数据将通过管道本地写入。计划是将视频下载url发送到视频剪辑管道，并让管道以较长的下载延迟执行下载，以减少对源站点的影响。

所以问题是：

（使用0.24）

Tags：数据项目文档 py 框架 url 利用视频

1条回答

网友

1楼 · 发布于 2024-09-27 21:25:20

我个人还没有这么做过，但是Scrapy开发人员为此推荐了media pipeline，这是{a2}。您应该能够通过更改^{}方法来override the settings。在