Scrapy无法从h3中提取数据

import scrapy import pprint class ForbiddenPlanetSpider(scrapy.Spider): name = "fp" start_urls = [ 'https://forbiddenplanet.com/catalog/?q=mortal%20realms&sort=release-date&page=1', ] def parse(self, response): for item in response.css("section.zshd-00"): print(response.css) name = item.css("h3.h4::text").get() #! price = item.css("span.clr-price::text").get() + item.css("span.t-small::text").get() rrp = item.css("del.mqr::text").get() release = item.css("dd.mzl").get() #! category = item.css("li.inline-list__item::text").get() #! universe = item.css("dt.txt").get() #! authors = item.css("a.SubTitleItems").get() #! publisher = item.css("dd.mzl").get() #! pprint.pprint(dict(name=name, price=price, rrp=rrp, release=release, category=category, universe=universe, authors=authors, publisher = publisher ) )

1条回答

网友

1楼 · 发布于 2024-06-26 17:49:53

Scrapy不呈现JS，尝试disable javascript in your browser并刷新页面，没有JS的站点版本的HTML结构不同

您应该用新的HTML结构重写选择器。尝试使用XPATH而不是CSS，因为它非常灵活

UPD

刮取此网站的最简单方法是向https://forbiddenplanet.com/api/products/listing/?q=mortal%20realms&sort=release-date发出请求

响应是一个包含所有必要数据的JSON对象。您可以将“results”字段（或整个JSON对象）转换为python字典，并使用字典方法获取所有字段

一份有效的代码草案，展示了这个想法

import scrapy
import json


def get_tags(tags: list):
    parsed_tags = []
    if tags:
        for tag in tags:
            parsed_tags.append(tag.get('name'))
        return parsed_tags
    return None


class ForbiddenplanetSpider(scrapy.Spider):
    name = 'forbiddenplanet'
    allowed_domains = ['forbiddenplanet.com']
    start_urls = ['https://forbiddenplanet.com/api/products/listing/?q=mortal%20realms&sort=release-date']

    def parse(self, response):
        response_dict = json.loads(response.body)
        items = response_dict.get('results')

        for item in items:
            yield {
                'name': item.get('title'),
                'price': item.get('site_price'),
                'rrp': item.get('rrp'),
                'release': item.get('release_date'),
                'category': get_tags(item.get('derived_tags').get('type')),
                'universe': get_tags(item.get('derived_tags').get('universe')),
                'authors': get_tags(item.get('derived_tags').get('author')),
                'publisher': get_tags(item.get('derived_tags').get('publisher')),
            }

        next_page = response_dict.get('next')
        if next_page:
            yield scrapy.Request(
                url=next_page,
                callback=self.parse
            )

相关问题更多 >

编程相关推荐

热门问题

热门文章