我是否在使用LinkExtractor属性（restrict\uXPath）时出错？不打电话

# -*- coding: utf-8 -*- import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.exceptions import CloseSpider class Bahiaprop1Spider(CrawlSpider): name = 'bahiaprop1' allowed_domains = ['www.bahiablancapropiedades.com'] start_urls = ['https://www.bahiablancapropiedades.com/buscar#/terrenos/venta/bahia- blanca/todos-los-barrios/rango-min=50.000,rango-max=350.000'] rules = ( Rule(LinkExtractor(allow = (), restrict_xpaths = ('//div[@class="row"]')), callback = 'parse_item', follow = True), ) def parse_item(self, response): print ('lol')

1条回答

网友

1楼 · 发布于 2024-10-03 04:31:44

这里的主要问题是，您正在使用的选择器（//div[@class="row"]）只匹配div与单个类row。使用XPath表达式来匹配包含类的元素有点棘手：

//div[@class and contains(concat(' ', normalize-space(@class), ' '), ' row ')]

或者可以使用css选择器：

Rule(
    LinkExtractor(allow=(), restrict_css = 'div.row'),
    callback = 'parse_item', 
)

编辑：

一些链接：

相关问题更多 >

编程相关推荐

热门问题

热门文章