用刮板爬行并刮取完整的场地

import scrapy from scrapy import Request #scrapy crawl jobs9 -o jobs9.csv -t csv class JobsSpider(scrapy.Spider): name = "jobs9" allowed_domains = ["vapedonia.com"] start_urls = ["https://www.vapedonia.com/7-principiantes-kit-s-de-inicio-", "https://www.vapedonia.com/10-cigarrillos-electronicos-", "https://www.vapedonia.com/11-mods-potencia-", "https://www.vapedonia.com/12-consumibles", "https://www.vapedonia.com/13-baterias", "https://www.vapedonia.com/23-e-liquidos", "https://www.vapedonia.com/26-accesorios", "https://www.vapedonia.com/31-atomizadores-reparables", "https://www.vapedonia.com/175-alquimia-", "https://www.vapedonia.com/284-articulos-en-liquidacion"] def parse(self, response): products = response.xpath('//div[@class="product-container clearfix"]') for product in products: image = product.xpath('div[@class="center_block"]/a/img/@src').extract_first() link = product.xpath('div[@class="center_block"]/a/@href').extract_first() name = product.xpath('div[@class="right_block"]/p/a/text()').extract_first() price = product.xpath('div[@class="right_block"]/div[@class="content_price"]/span[@class="price"]/text()').extract_first().encode("utf-8") yield{'Image' : image, 'Link' : link, 'Name': name, 'Price': price} relative_next_url = response.xpath('//*[@id="pagination_next"]/a/@href').extract_first() absolute_next_url = "https://www.vapedonia.com" + str(relative_next_url) yield Request(absolute_next_url, callback=self.parse)

import scrapy from scrapy import Request from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor #scrapy crawl jobs10 -o jobs10.csv -t csv class JobsSpider(scrapy.spiders.CrawlSpider): name = "jobs10" allowed_domains = ["vapedonia.com"] start_urls = ["https://www.vapedonia.com/"] rules = (Rule(LinkExtractor(allow=(r"https://www.vapedonia.com/\d+.*",)), callback='parse_category'), ) def parse_category(self, response): products = response.xpath('//div[@class="product-container clearfix"]') for product in products: image = product.xpath('div[@class="center_block"]/a/img/@src').extract_first() link = product.xpath('div[@class="center_block"]/a/@href').extract_first() name = product.xpath('div[@class="right_block"]/p/a/text()').extract_first() price = product.xpath('div[@class="right_block"]/div[@class="content_price"]/span[@class="price"]/text()').extract_first().encode("utf-8") yield{'Image' : image, 'Link' : link, 'Name': name, 'Price': price}

start_urls = ["https://www.vapedonia.com/7-principiantes-kit-s-de-inicio-", "https://www.vapedonia.com/10-cigarrillos-electronicos-", "https://www.vapedonia.com/11-mods-potencia-", "https://www.vapedonia.com/12-consumibles", "https://www.vapedonia.com/13-baterias", "https://www.vapedonia.com/23-e-liquidos", "https://www.vapedonia.com/26-accesorios", "https://www.vapedonia.com/31-atomizadores-reparables", "https://www.vapedonia.com/175-alquimia-", "https://www.vapedonia.com/284-articulos-en-liquidacion"]

relative_next_url = response.xpath('//*[@id="pagination_next"]/a/@href').extract_first() absolute_next_url = "https://www.vapedonia.com" + str(relative_next_url) yield Request(absolute_next_url, callback=self.parse)

1条回答

网友

1楼 · 发布于 2024-09-30 01:36:13

在这种情况下，您需要使用具有规则的爬行器。下面是一个简单的翻译你的刮刀之一

class JobsSpider(scrapy.spiders.CrawlSpider):
    name = "jobs9"
    allowed_domains = ["vapedonia.com"]
    start_urls = ["https://www.vapedonia.com"]

    rules = (Rule(LinkExtractor(allow=(r"https://www.vapedonia.com/\d+.*",)), callback='parse_category'), )

    def parse_category(self, response):
        products = response.xpath('//div[@class="product-container clearfix"]')
        for product in products:
            image = product.xpath('div[@class="center_block"]/a/img/@src').extract_first()
            link = product.xpath('div[@class="center_block"]/a/@href').extract_first()
            name = product.xpath('div[@class="right_block"]/p/a/text()').extract_first()
            price = product.xpath(
                'div[@class="right_block"]/div[@class="content_price"]/span[@class="price"]/text()').extract_first().encode(
                "utf-8")
            yield {'Image': image, 'Link': link, 'Name': name, 'Price': price}

看看https://doc.scrapy.org/en/latest/topics/spiders.html上的不同蜘蛛

相关问题更多 >

编程相关推荐

热门问题

热门文章