使用XPath提取HTML结果失败，因为内容是动态加载的

['\n ', '<h3>\n Gourmet Matinee</h3>', '\n ', '<h4><span id="spanEventDetailPerformanceLocation"><p>Knight Grove</p></span></h4>', '\n ']

# -*- coding: utf-8 -*- import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.loader import ItemLoader from concertscraper.items import Concert from scrapy.contrib.loader import XPathItemLoader from scrapy import Selector from scrapy.http import XmlResponse class ClevelandOrchestra(CrawlSpider): name = 'clev2' allowed_domains = ['clevelandorchestra.com'] start_urls = ['https://www.clevelandorchestra.com/'] rules = ( Rule(LinkExtractor(allow=''), callback='parse_item', follow=True), ) def parse_item(self, response): thisconcert = ItemLoader(item=Concert(), response=response) for concert in response.xpath('.//div[@class="event-wrap"]'): thisconcert.add_xpath('location','.//div[@class="event-location"]//span//text()') return thisconcert.load_item()

['<div class="event-location">\r\n' ' <h3>\r\n' ' BLOSSOM MUSIC FESTIVAL </h3>\r\n' ' <h4><span ' 'id="spanEventDetailPerformanceLocation"></span></h4>\r\n' ' </div>']

1条回答

网友

1楼 · 发布于 2024-10-02 10:34:19

此内容通过Ajax调用加载。为了获取数据，您需要发出类似的POST请求，不要忘了添加内容类型为headers = {'content-type': "application/json"}的头，并得到Json文件作为响应。

import requests

url = "https://www.clevelandorchestra.com/Services/PerformanceService.asmx/GetToolTipPerformancesForCalendar"
payload = {"startDate": "2017-06-30T21:00:00.000Z", "endDate": "2017-12-31T21:00:00.000Z"}
headers = {'content-type': "application/json"}

json_response = requests.post(url, json=payload, headers=headers).json()
for performance in json_response['d']:
    print(performance["performanceName"], performance["dateString"])

# Star-Spangled Spectacular Friday, June 30, 2017
# Blossom: Tchaikovskys Spectacular 1812 Overture Saturday, July 1, 2017
# Blossom: Tchaikovskys Spectacular 1812 Overture Sunday, July 2, 2017
# Blossom: A Salute to America Monday, July 3, 2017
# Blossom: A Salute to America Tuesday, July 4, 2017

相关问题更多 >

编程相关推荐

热门问题

热门文章