Scrapy不返回特定标签的结果

import scrapy class QuotesSpider(scrapy.Spider): name = "profile" start_urls = [ 'http://gramreport.com/user/cats.gato' ] def parse(self, response): page = response.url.split("/")[-1] filename = 'profile-%s.html' % page with open(filename, 'wb') as f: f.write(response.body)

//Followers: response.xpath('/html/body/div[3]/table[1]/tr/td[2]/table/tr[1]/td/div/table/tr[2]/td/text()').extract() //Posts: response.xpath('/html/body/div[3]/table[1]/tr/td[2]/table/tr[3]/td/div/table/tr[2]/td/text()').extract() //Page Name: response.xpath('/html/body/div[3]/table[1]/tr/td[1]/div/div/div/span[2]/text()').extract() //Average Likes: response.xpath('/html/body/div[3]/div[1]/div/div/div[1]/div/text()').extract() //Average Comments: response.xpath('/html/body/div[3]/div[1]/div/div/div[2]/div/text()').extract()

1条回答

网友

1楼 · 发布于 2024-10-03 02:45:47

页面加载时会发出AJAX请求。你知道吗

如果在加载页面时打开web检查器，您将看到如下AJAX请求：

如果在page source中按住ctrl+f组合键，您将看到一些javascript，如：

您可以使用scrapy找到此url，然后转发请求：

def parse(self, response):

    script = response.xpath("//script[contains(text(), 'getresultsb']")
    url = script.re('url:"(.+?)"')  # capture between ""
    headers = {
        'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'X-Requested-With': 'XMLHttpRequest',
    }
    yield Request(url, 
        method='POST', 
        body='dmn=ok', 
        callback=self.parse_recent
        headers=headers,
    )

def parse_recent(self, response):
    # parse recent data here

相关问题更多 >

编程相关推荐

热门问题

热门文章