用Scrapy和Selenium搜索结果

import scrapy from scrapy_selenium import SeleniumRequest class QuotesSpider(scrapy.Spider): name = "XH" def start_requests(self): urls = [ 'http://so.news.cn/#search/0/%E4%B8%80%E5%B8%A6%E4%B8%80%E8%B7%AF/1/' ] for url in urls: yield SeleniumRequest(url=url, wait_time=90, callback=self.parse) def parse(self, response): print(response.request.meta['driver'].title) page = response.url.split("/")[-2] filename = 'XH-%s.html' % page with open(filename, 'wb') as f: f.write(response.body) self.log('Saved file %s' % filename)

1条回答

网友

1楼 · 发布于 2024-09-28 21:42:13

在inspect tool open network tab and watch requests中，您将发现数据来自this url，因此使用普通的scrapy.Request()对其进行爬网。
蜘蛛是这样的：

import scrapy
import json

class QuotesSpider(scrapy.Spider):
    name = "XH"

    def start_requests(self):
        urls = [
            'http://so.news.cn/getNews?keyword=%E4%B8%80%E5%B8%A6&curPage=1&sortField=0&searchFields=1&lang=cn'
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        json_data = json.loads(response.body.decode('utf-8'))
        for data in json_data['content']['results']:
            yield {
                'url': data['url']
            }

相关问题更多 >

编程相关推荐

热门问题

热门文章