瘙痒延迟

2024-05-04 23:15:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在进行一个项目,以抓取一个类似Wiki的网站,这是一个历史人物和一些基本信息的数据库(所有个人信息都在自己的页面上)。有几百万个(略低于300万个)名字,所以我想让爬虫在不伤害网站的同时完全抓取信息。我对这一点完全陌生,所以我想知道人们是否可以指导我学习web抓取的最佳实践。具体来说,我在下面的设置文件中发布了一点:

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

DOWNLOAD_DELAY = 5
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

AUTOTHROTTLE_ENABLED = True
# The initial download delay
AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
AUTOTHROTTLE_DEBUG = True

我取消了自动油门设置的注释,并将下载延迟设置为5秒。但是,这会使刮板移动太慢。如果我不想被禁赛,这是不可避免的吗?人们通常把下载延迟参数设置为什么?在


Tags: ofthe信息true网站downloadrequestsconcurrent