我得到了一个刮擦蜘蛛,当我运行代码,我得到这个错误
Ignoring response <302 https://www.macys.com/>: HTTP status code is not handled or not allowed
这是我的蜘蛛
import scrapy
import urllib.parse
import random
class MacysspiderSpider(scrapy.Spider):
name = 'macysSpider'
allowed_domains = ['macys.com']
start_urls = ['https://macys.com']
def parse(self, response):
pass
我检查了这个URL,当我运行代码时,它在URL的末尾包含了“>;”
如何从起始URL中删除此UTF-8?你知道吗
不确定您在哪里找到了作为url一部分的'>;',但我认为这与问题无关。 您需要设置一些标题来清除此网站:
要将这些更改应用到您的第一个请求中,您可以覆盖start\u requests方法,如下所示:
相关问题 更多 >
编程相关推荐