被机器人禁止.txt:scrapy

2024-05-19 08:36:48 发布

您现在位置:Python中文网/ 问答频道 /正文

在爬行像https://www.netflix.com这样的网站时,被robots.txt禁止:https://www.netflix.com/>

错误:没有为https://www.netflix.com/下载响应


Tags: httpsgttxtcom网站www错误robots
2条回答

在2016年5月11日发布的新版(scrapy 1.1)中,爬行在爬行之前首先下载robots.txt。要更改此行为,请使用ROBOTSTXT_OBEY更改settings.py

ROBOTSTXT_OBEY=False

这是release notes

首先要确保在请求中更改了用户代理,否则默认的用户代理肯定会被阻止。

相关问题 更多 >

    热门问题