当dont_filter=Fals时,垃圾请求回调不起作用

2024-10-02 14:18:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用scrapy1.1.0和python3.5从网站上获取数据。 以下代码正在工作。。。在

class ImdbSpider(scrapy.Spider):
    name = "imdbFav"
    allowed_domains = ["http://www.imdb.com"]
    start_urls = [
        "http://www.imdb.com/title/tt0203166/"
    ]
    recommendRegex = re.compile(r'\/title\/([A-Za-z0-9]*)')

    def parse(self, response):
        for recommend in response.xpath('//div[@class="rec_page"]/div[@class="rec_item"]/a/@href').extract():
            mo = self.recommendRegex.search(recommend)
            recommendId = mo.group(1)
            link = "http://www.imdb.com/title/" + recommendId
            print(link)
            yield scrapy.Request(link, callback=self.parse, dont_filter=True)
enter code here

但是。。。我不知道为什么在dont_filter=False时没有调用请求回调。 文件上说:

This is used when you want to perform an identical request multiple times, to ignore the duplicates filter. Use it with care, or you will get into crawling loops.

但我没有要求相同的网址。这是怎么回事?在

谢谢朋友们!在


Tags: selfdivcomhttptitleparseresponsewww
1条回答
网友
1楼 · 发布于 2024-10-02 14:18:37

这是常见的朋友问题:

  • 格雷格和梅丽莎是朋友
  • 梅丽莎和约翰是朋友
  • 约翰和杰克是朋友
  • 杰克和格雷格是朋友

就你而言,这是关于电影的:

  • 一起说明我们是最好的
  • 我们是最好的建议给我爱
  • 给我看爱情暗示在一起

当你在寻找建议的时候,肯定会在电影中重复几次。最好的方法是将电影数据保存到数据库中,并根据其id给出建议

相关问题 更多 >