用刮擦链接

for link in website: follow link attribute1 = item.css('cssobject::text').extract()[1] attribute2 = item.ss('cssobject::text').extract()[2] yield{'Attribute 1': attribute1, 'Attribute 2': attribute2}

1条回答

网友

1楼 · 发布于 2024-10-02 02:33:04

您可以使用scrapy的CrawlSpider来跟踪和抓取链接

您的代码应该如下所示：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spider import CrawlSpider, Rule


class BooliItem(scrapy.Item):
    size = scrapy.Field()
    price = scrapy.Field()
    m2price = scrapy.Field()


class BooliSpider(CrawlSpider):
    name = "boolidata"
    start_urls = [
        'https://www.booli.se/slutpriser/lund/116978/',
    ]

    rules = [
        Rule(
            LinkExtractor(
                allow=(r'listing url pattern here to follow'),
                deny=(r'other url patterns to deny'),
            ),
            callback='parse_item',
            follow=True,
        ),
    ]

    def parse_item(self, response):
        item = BooliItem()
        item['size'] = response.css('size selector').extract()
        item['price'] = response.css('price selector').extract()
        item['m2price'] = response.css('m2price selector').extract()

        return item

您可以通过以下方式运行代码：

^{pr2}$

并将csv导入Excel。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

用刮擦链接

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >