用scrapy（和selenium？）动态生成数据

POST /Websilk/DataServices/SurveyData.asmx/FetchInstitutionStudyAreaData HTTP/1.1 Host: www.qilt.edu.au User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:39.0) Gecko/20100101 Firefox/39.0 Accept: application/json, text/javascript, */*; q=0.01 Accept-Language: en-US,en;q=0.5 Accept-Encoding: gzip, deflate Content-Type: application/json; charset=utf-8 X-Requested-With: XMLHttpRequest Referer: http://www.qilt.edu.au/institutions/institution/bond-university/business-management Content-Length: 36 Cookie: _ga=GA1.3.69062787.1442441726; ASP.NET_SessionId=lueff4ysg3yvd2csv5ixsc1f; _gat=1 Connection: keep-alive Pragma: no-cache Cache-Control: no-cache

import scrapy import time #used for the sleep() function from selenium import webdriver class QiltSpider(scrapy.Spider): name = "qilt" allowed_domains = ["qilt.edu.au"] start_urls = [ "http://www.qilt.edu.au/institutions/institution/rmit-university/architecture-building/" ] def __init__(self): self.driver = webdriver.Firefox() self.driver.get('http://www.qilt.edu.au/institutions/institution/rmit-university/architecture-building/') time.sleep(5) # tried pausing, in case problem was delayed loading - didn't work def parse(self, response): # parse the response to find the uni name and show in console (using xpath code from firebug). This find the relevant section, but it shows as empty title = response.xpath('//*[@id="bd"]/div[2]/div/div/div[1]/div/div[2]/h1').extract() print title # dumping the whole response to a file so I can check whether dynamic values were captured with open("extract.html", 'wb') as f: f.write(response.body) self.driver.close()

import scrapy from scrapy.http import FormRequest class HeaderTestSpider(scrapy.Spider): name = "headerTest" allowed_domains = ["qilt.edu.au"] start_urls = [ "http://www.qilt.edu.au/institutions/institution/rmit-university/architecture-building/" ] def parse(self, response): return [FormRequest(url="http://www.qilt.edu.au/Websilk/DataServices/SurveyData.asmx/FetchInstitutionData", method='POST', formdata={'InstitutionId':'20', 'StudyAreaId': '0'}, callback=self.parser2)]

1条回答

网友

1楼 · 发布于 2024-09-30 20:17:47

QILT page使用AJAX从服务器检索数据。此AJAX请求使用javascript代码发送，该代码使用偶数文档准备就绪（jQuery）/窗口.onload（Javascript）（如果您不熟悉Javascript，则在web页面加载到浏览器窗口后立即触发此方法）。由于您正在使用软件来激发页面请求，因此根本不会触发此事件。在

对于您试图模拟的AJAX请求，请求体的类型是Application/JSON。请在请求中添加以下标头。 内容类型：application/json

相关问题更多 >

编程相关推荐

热门问题

热门文章