尝试使用Scrapy刮取分页链接时出现问题

from scrapy import Spider from scrapy.selector import Selector from scrapy.linkextractors import LinkExtractor from scrapy.spiders import Rule, CrawlSpider from property.items import PropertyItem import re class VivastreetSpider(CrawlSpider): name = 'viva' allowed_domains = ['http://chennai.vivastreet.co.in/'] start_urls = ['http://chennai.vivastreet.co.in/rent+chennai/'] rules = [ Rule(LinkExtractor(restrict_xpaths = ('//*[text()[contains(., "Next")]]')), callback = 'parse_item', follow = True) ] def parse_item(self, response): a = Selector(response).xpath('//a[contains(@id, "vs-detail-link")]/text()').extract() i = 1 for b in a: print('testtttttttttttttt ' + str(i) + '\n' + str(b)) i += 1 item = PropertyItem() item['title'] = a[0] yield item

1条回答

网友

1楼 · 发布于 2024-09-29 08:22:58

你的蜘蛛很少有毛病。在

你的allowed_domains坏了，如果你检查你的蜘蛛，你可能会得到很多过滤掉的请求。
你对CrawlSpider有点误解。首先，当crawspider启动时，它下载start_urls中的每个url并调用parse_start_url。

所以你的蜘蛛应该看起来像：

class VivastreetSpider(CrawlSpider):
    name = 'test'
    allowed_domains = ['chennai.vivastreet.co.in']
    start_urls = ['http://chennai.vivastreet.co.in/rent+chennai/']
    rules = [
    Rule(
        LinkExtractor(
        restrict_xpaths='//*[text()[contains(., "Next")]]'),
        callback='parse_start_url'
    )
    ]

    def parse_start_url(self, response):
        a = Selector(response).xpath('//a[contains(@id, "vs-detail-link")]/text()').extract()
        return {'test': len(a)}

相关问题更多 >

编程相关推荐

热门问题

热门文章