如何修复CSV/JSON的废字典输出格式

import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from scrapy.loader import ItemLoader from scrapy.loader.processors import TakeFirst, MapCompose, Join from gumtree1.items import GumtreeItems class AdItemLoader(ItemLoader): jobs_in = MapCompose(unicode.strip) class GumtreeEasySpider(CrawlSpider): name = 'gumtree_easy' allowed_domains = ['gumtree.com.au'] start_urls = ['http://www.gumtree.com.au/s-jobs/page-2/c9302?ad=offering'] rules = ( Rule(LinkExtractor(restrict_xpaths='//a[@class="rs-paginator-btn next"]'), callback='parse_item', follow=True), ) def parse_item(self, response): loader = AdItemLoader(item=GumtreeItems(), response=response) loader.add_xpath('jobs','//div[@id="recent-sr-title"]/following-sibling::*//*[@itemprop="name"]/text()') loader.add_xpath('location', '//div[@id="recent-sr-title"]/following-sibling::*//*[@class="rs-ad-location-area"]/text()') yield loader.load_item()

import scrapy from gumtree1.items import GumtreeItems class AussieGum1Spider(scrapy.Spider): name = "aussie_gum1" allowed_domains = ["gumtree.com.au"] start_urls = ( 'http://www.gumtree.com.au/s-jobs/page-2/c9302?ad=offering', ) def parse(self, response): item = GumtreeItems() jobs = response.xpath('//div[@id="recent-sr-title"]/following-sibling::*//*[@itemprop="name"]/text()').extract() location = response.xpath('//div[@id="recent-sr-title"]/following-sibling::*//*[@class="rs-ad-location-area"]/text()').extract() for j, l in zip(jobs, location): item['jobs'] = j.strip() item['location'] = l yield item

2016-03-16 02:20:46 [scrapy] DEBUG: Crawled (200) <GET http://www.gumtree.com.au/s-jobs/page-3/c9302?ad=offering> (referer: http://www.gumtree.com.au/s-jobs/page-2/c9302?ad=offering) 2016-03-16 02:20:46 [scrapy] DEBUG: Scraped from <200 http://www.gumtree.com.au/s-jobs/page-3/c9302?ad=offering> {'jobs': u'Live In Au pair-Urgent', 'location': u'Wanneroo Area'} 2016-03-16 02:20:46 [scrapy] DEBUG: Scraped from <200 http://www.gumtree.com.au/s-jobs/page-3/c9302?ad=offering> {'jobs': u'live in carer', 'location': u'Fraser Coast'} 2016-03-16 02:20:46 [scrapy] DEBUG: Scraped from <200 http://www.gumtree.com.au/s-jobs/page-3/c9302?ad=offering> {'jobs': u'Mental Health Nurse', 'location': u'Perth Region'} 2016-03-16 02:20:46 [scrapy] DEBUG: Scraped from <200 http://www.gumtree.com.au/s-jobs/page-3/c9302?ad=offering> {'jobs': u'Experienced NBN pit and pipe installers/node and cabinet wor...', 'location': u'Marrickville Area'} 2016-03-16 02:20:46 [scrapy] DEBUG: Scraped from <200 http://www.gumtree.com.au/s-jobs/page-3/c9302?ad=offering> {'jobs': u'Delivery Driver / Pizza Maker Job - Dominos Pizza', 'location': u'Hurstville Area'}

2条回答

网友

1楼 · 编辑于 2024-10-03 02:38:25

为每个项都有一个父选择器，并提取与其相关的job和{}：

rows = response.xpath('//div[@id="recent-sr-title"]/following-sibling::*')
for row in rows:
    item = GumtreeItems()
    item['jobs'] = row.xpath('.//*[@itemprop="name"]/text()').extract_first().strip()
    item['location'] = row.xpath('.//*[@class="rs-ad-location-area"]/text()').extract_first().strip()
    yield item

网友

2楼 · 编辑于 2024-10-03 02:38:25

老实说，使用for循环是正确的方法，但您可以在管道上解决它：

from scrapy.http import Response
from gumtree1.items import GumtreeItems, CustomItem
from scrapy.exceptions import DropItem


class CustomPipeline(object):

    def __init__(self, crawler):
        self.crawler = crawler

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    def process_item(self, item, spider):
        if isinstance(item, GumtreeItems):
            for i, jobs in enumerate(item['jobs']):
                self.crawler.engine.scraper._process_spidermw_output(
                    CustomItem(jobs=jobs, location=item['location'][i]), None, Response(''), spider)
            raise DropItem("main item dropped")
        return item

同时添加自定义项：

^{pr2}$

希望这有帮助，再次我认为你应该使用循环。在

相关问题更多 >

编程相关推荐

热门问题

热门文章