我也面临同样的问题。有人能告诉我怎样才能刮取下面提到的URL吗
start_urls = [ 'https://onlinelibrary.ectrims-congress.eu/ectrims/#!*menu=6*browseby=3*sortby=2*media=3*ce_id=1428' ]
我得到的回应是
Crawled (200) <GET https://onlinelibrary.ectrims-congress.eu/ectrims/?_escaped_fragment_=%2Amenu%3D6%2Abrowseby%3D3%2Asortby%3D2%2Amedia%3D3%2Ace_id%3D1428%3E> (referer: None) ['cached']
但不幸的是,我无法提取数据(response.xpath),因为它给了我空值。这是因为当我单击响应URL时,它似乎没有给我想要从中获取数据的确切URL
请帮忙
网站
通过查看网站,您可以看到您想要获取的内容是由javascript驱动的,javascript通过发出AJAX请求,增加了通过API端点加载数据的机会。使用chrome开发工具,您可以检查XHR中是否加载了5个请求。但是,此API
https://onlinelibrary.ectrims-congress.eu/ectrims/listing/events/banners
将在传递所需的参数后为您提供所需的数据,这些参数是header、cookies&;身体发痒代码
如果有帮助,请投票
相关问题 更多 >
编程相关推荐