使用scrapy获取使用Javascrip的结果的第二页

from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy_demo.items import ScrapyDemoItem class MySpider(BaseSpider): name = "test" allowed_domains = ["sueryder.org"] start_urls = ["http://www.sueryder.org/Get-involved/Volunteering/All-Roles"] def parse(self, response): hxs = HtmlXPathSelector(response) titles = hxs.select('//tr') items = [] for titles in titles: item = ScrapyDemoItem() item ["link"] = titles.select('td/text()').extract() items.append(item) return items

1条回答

网友

1楼 · 发布于 2024-09-30 14:31:58

JavaScript只提交一个表单，所以使用FormRequest：

from scrapy.http import FormRequest

for href in hxs.select('//div[@class="paging pag-num pag-arrows"]//a/@href'):
    target = href.split("'")[1]

    yield FormRequest.from_response(
        response=response, 
        formnumber=0,
        formdata={'__EVENTTARGET': target}
    )

您还必须子类CrawlSpider并设置Rule来对结果页进行爬网，因为在parse内进行这样的操作是行不通的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章