2024-10-05 10:47:03 发布
网友
我正在使用Scrapy进行网页抓取this page。在
当我调用这个xpath时:
.//div[@class='readmore-concealed-container']
我得到了空结果,虽然我可以看到它在chrome开发工具。为什么这么说?在
问题是网站的动态性。Scrapy得到的HTML与您在浏览器开发工具中看到的不一样,因为浏览器正在执行javascript代码来更改DOM。你不能在Scrapy中复制相同的行为,Scrapy不是一个浏览器。在
假设您想获取主要电话号码,可以从页面上的其他位置提取它。来自^{}的演示:
$ scrapy shell https://www.propertyfinder.ae/en/rent/apartment-for-rent-abu-dhabi-al-reem-island-3093563.html In [1]: response.xpath('//li[@class="phone"]/a/@data-phone').extract()[0] Out[1]: u'+971 X XXX 21XX' # added X for privacy reasons
问题是网站的动态性。Scrapy得到的HTML与您在浏览器开发工具中看到的不一样,因为浏览器正在执行javascript代码来更改DOM。你不能在Scrapy中复制相同的行为,Scrapy不是一个浏览器。在
假设您想获取主要电话号码,可以从页面上的其他位置提取它。来自^{} 的演示:
相关问题 更多 >
编程相关推荐