使用Scrapy刮取使用XMLHttpRequests加载其内容的站点

import scrapy, re, json, requests from ..items import MetroSouthItems class MetroSouth(scrapy.Spider): name = "metrosouth" start_urls = [ 'https://recruiting.ultipro.com/COM1038/JobBoard/d22da326-8928-4fbc-8b3b-99b6db355d5d/JobBoardView/LoadOpportunities', ] def parse(self, response): html_res = response.body decoded_res = str(html_res,"utf-8") json_file = open("metrosouth.json", "w") json_file.write(decoded_res) with open("metrosouth.json") as json_data: data = json.load(json_data) items = MetroSouthItems() for i in range(len(data["opportunities"])): items["job_title"] = data["opportunities"][i]["Title"] print(i) yield items

1条回答

网友

1楼 · 发布于 2024-09-29 01:24:09

在最初的页面中，他们使用一些额外的负载发出POST请求。我们可以这样复制它：

import scrapy, json


class MetroSouth(scrapy.Spider):
    name = "metrosouth"
    search_url = url = 'https://recruiting.ultipro.com/COM1038/JobBoard/d22da326-8928-4fbc-8b3b-99b6db355d5d/JobBoardView/LoadOpportunities'

    def start_requests(self):
        payload = """{"opportunitySearch":{"Top":100,"Skip":0,"QueryString":"","OrderBy":[{"Value":"postedDateDesc","PropertyName":"PostedDate","Ascending":false}],"Filters":[{"t":"TermsSearchFilterDto","fieldName":4,"extra":null,"values":[]},{"t":"TermsSearchFilterDto","fieldName":5,"extra":null,"values":[]},{"t":"TermsSearchFilterDto","fieldName":6,"extra":null,"values":[]}]},"matchCriteria":{"PreferredJobs":[],"Educations":[],"LicenseAndCertifications":[],"Skills":[],"hasNoLicenses":false,"SkippedSkills":[]}}"""
        yield scrapy.Request(self.search_url, method='POST', body=payload)

    def parse(self, response):
        j = json.loads(response.text)
        print '======'
        for i, row in enumerate(j.get('opportunities')):
            print i, ' - ', row.get('Title')
        print '======'

检查有效负载中的参数Top。最初它被设置为50，请求页面给我们20条记录。但我把它增加到了100张，现在我得到了全部54张唱片。希望能有帮助。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章