瘙痒延迟

2024-05-04 23:15:59 发布

男 | 程序猿一只，喜欢编程写python代码。

我目前正在进行一个项目，以抓取一个类似Wiki的网站，这是一个历史人物和一些基本信息的数据库（所有个人信息都在自己的页面上）。有几百万个（略低于300万个）名字，所以我想让爬虫在不伤害网站的同时完全抓取信息。我对这一点完全陌生，所以我想知道人们是否可以指导我学习web抓取的最佳实践。具体来说，我在下面的设置文件中发布了一点：

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

DOWNLOAD_DELAY = 5
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

AUTOTHROTTLE_ENABLED = True
# The initial download delay
AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
AUTOTHROTTLE_DEBUG = True

我取消了自动油门设置的注释，并将下载延迟设置为5秒。但是，这会使刮板移动太慢。如果我不想被禁赛，这是不可避免的吗？人们通常把下载延迟参数设置为什么？在

Tags： of the 信息 true 网站 download requests concurrent

0条回答

目前没有回答

瘙痒延迟

相关问题更多 >

编程相关推荐

热门问题

热门文章

瘙痒延迟

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >