基于AJAX的网站的Scrapy请求有效负载格式和类型

def start_requests(self): headers = {"authority": "www.noon.com", "method": "POST", "path": "/_svc/reviews/fetch/v1/product-reviews/list", "scheme": "https", "accept": "application/json, text/plain, */*", "accept-encoding": "gzip, deflate, br", "accept-language": "en-US,en;q=0.9", "cache-control": "no-cache, max-age=0, must-revalidate, no-store", "content-type": "application/json", "origin": "https://www.noon.com", "referer": "https://www.noon.com/uae-en/face-and-beard-wash-multicolour-80ml/N22130693A/p?o=f7adb85c3296590b", "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36', } url = "https://www.noon.com/_svc/reviews/fetch/v1/product-reviews/list" payload = [{"catalogCode":"noon","sku":"N22130693A","lang":None,"ratings":[1,2,3,4,5],"provideBreakdown":True,"page":1}] yield scrapy.Request(url,method = "POST",body=json.dumps(payload),headers = headers,callback=self.parse) def parse(self, response): data = json.loads(response.body) print(data)

1条回答

网友

1楼 · 发布于 2024-09-19 07:16:55

我尝试了这个，它对我来说是有效的，如果它对你不起作用，也许你已经被IP阻止了，可能不得不使用代理api。如果这对你有用，试试看

def start_requests(self):
    return [scrapy.Request(
        url='https://www.noon.com/_svc/reviews/fetch/v1/product-reviews/list',
        method='POST',
        body='{"catalogCode":"noon","sku":"N22130693A","lang":null,"ratings":[1,2,3,4,5],"provideBreakdown":true,"page":1}',
        headers={
            'content-type': 'application/json'
        }
    )]

def parse(self, response):
    print(response.body)

我的输出：

2020-12-23 13:12:35 [scrapy.core.engine] DEBUG: Crawled (200) <POST https://www.noon.com/_svc/reviews/fetch/v1/product-reviews/list> (referer: None)
b'{"list":[],"summary":{"rating":5.0,"count":1,"commentCount":0},"breakdown":[{"rating":5.0,"count":1,"commentCount":0}],"languages":[],"pagination":{"totalPages":1,"page":1,"perPage":10}}'

相关问题更多 >

编程相关推荐

热门问题

热门文章