使用xpath从scrapy shell获取空响应，而它在element insp中工作

$ scrapy shell 'https://cloud.baladovore.com/map/sNRgAcGKiY' -s U SER_AGENT='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, l ike Gecko) Chrome/46.0.2490.80 Safari/537.36' In [5]: response.xpath('//div[@class="address-coords"]/div[@class="address"]/p/span[@it ...: emprop="address"]').getall() Out[5]: []

1条回答

网友

1楼 · 发布于 2024-06-28 20:16:13

如果您使用scrapy shell查看响应的内容（使用response.body），您将看到服务器用一个充满脚本的小页面进行响应，然后执行这些脚本

因此，您要么需要一种使用Scrapy运行Javascript的方法，要么直接查询服务器以获得结果。使用浏览器的开发工具（网络）是检查这些查询的常用方法（如linked answer中所述）

另一种解决方案是使用Selenium来模拟完整的浏览器

编辑1：你需要做的不仅仅是https://cloud.baladovore.com/parse/classes/Address

如果检查请求，您将看到它不仅请求该页面，还提供其他信息：

Request URL: https://cloud.baladovore.com/parse/classes/Address
Request Method: POST
Request Payload: {"where":{"objectId":"sNRgAcGKiY"},"limit":1,"_method":"GET","_ApplicationId":"cB4rsS2KbFIG5IQyjJv0XaDC8M28e0YDu58SaolX","_JavaScriptKey":"eDoqTmoIS6Ofpf0OAgNdYKGm9TBs2fVv9MR8lS5u","_ClientVersion":"js1.6.14","_InstallationId":"02f7b7dd-31c7-b235-df1d-93c323dbcd60"}

让我们用requests来模拟一下：

import requests

access_data = {"where":{"objectId":"sNRgAcGKiY"},
"limit":1,
"_method":"GET",
"_ApplicationId":"cB4rsS2KbFIG5IQyjJv0XaDC8M28e0YDu58SaolX",
"_JavaScriptKey":"eDoqTmoIS6Ofpf0OAgNdYKGm9TBs2fVv9MR8lS5u",
"_ClientVersion":"js1.6.14","_InstallationId":"02f7b7dd-31c7-b235-df1d-93c323dbcd60"
}
url = 'https://cloud.baladovore.com/parse/classes/Address'
test_req = requests.post(url, json=access_data)
test_req.status_code
test_req.json()

这将输出您可以处理的解码json响应

我不知道_JavaScriptKey的属性。你需要调查一下

如果您坚持使用Srapy，则需要阅读documentation中关于如何设置请求主体的内容

相关问题更多 >

编程相关推荐

热门问题

热门文章