下载中间件忽略对scrapy中某个URL的所有请求

from scrapy.exceptions import IgnoreRequest from scrapy import log class CustomDownloaderMiddleware: def process_response(request, response, spider): log.msg("In Middleware " + response.url, level=log.WARNING) if response.url == "http://www.achurchnearyou.com//": return IgnoreRequest() else: return response

2条回答

网友

1楼 · 编辑于 2024-10-01 17:36:09

如果您知道哪些请求被重定向到有问题的请求，那么类似于：

def parse_requests(self, response):
    ....
    meta = {'handle_httpstatus_list': [301, 302]}
    callback = 'process_redirects'
    yield Request(url, callback=callback, meta=meta, ...)

def process_redirects(self, response):
    url = response.headers['location']
    if url is no good:
        return
    else:
        ...

这样可以避免下载无用的响应。在

您可以随时定义自己的自定义重定向中间件。在

网友

2楼 · 编辑于 2024-10-01 17:36:09

我找到了解决我自己问题的方法——用Python创建类和方法是个愚蠢的错误。上面的代码需要是：

from scrapy.exceptions import IgnoreRequest
from scrapy import log

class CustomDownloaderMiddleware(object):

   def process_response(self, request, response, spider):
       log.msg("In Middleware " + response.url, level=log.WARNING)
       if response.url == "http://www.achurchnearyou.com//":
           raise IgnoreRequest()
       else:
           return response

也就是说，该方法需要一个self参数作为第一个参数，而该类需要从object继承。在

相关问题更多 >

编程相关推荐

热门问题

热门文章