但是,我不希望此默认页上有数据。我想把数据放在投资组合标签下。因此,我使用Firefox来确定公文包的url,并尝试使用以下python代码:
testpage = urlopen('http://tools.morningstar.co.uk/uk/fundscreener/results.aspx?LanguageId=en-GB&Universe=FOGBR%24%24ALL&CurrencyId=GBP&URLKey=t92wz0sj7c&Site=uk&tabAction=Portfolio')
但是,页面总是重定向到默认链接。我如何进入公文包页面
您需要注意与所有头文件和数据一起发出的请求
对于获取“portfolio”数据,如果您进行检查,您将看到
POST
请求与数据日志一起发送,并且payload data
(表单数据)用于将portfolio数据发送回响应您需要做的是模拟请求来获取响应数据,然后根据需要进行处理。你可以这样做:
现在可以使用xpath从根目录获取所需的元素,例如:
请参阅scraping和lxml文档以了解更多信息
我已经使用了请求中的所有有效负载数据,您可以删除一些并检查请求中绝对必要的内容
另外,要遵守网站的刮擦规则,优雅地刮擦,不要给网站造成太大的压力
相关问题 更多 >
编程相关推荐