我读过几篇关于网络抓取的文章,但我不明白如何在网站中找到元素。在
我要废弃表的站点如下: http://www.bmfbovespa.com.br/pt_br/servicos/market-data/cotacoes/mercado-de-derivativos/?symbol=DI1
我想废弃这些表:“TB01”、“TB02、TB03和TB04”这些是表的ID
<tbody> == $0
<tr>
<td id="TB01">...</td>
<td id="TB02">...</td>
<td id="TB03">...</td>
<td id="TB04">...</td>
<tr>
我已经尝试过Selenium库的所有find.element
函数,但是没有一个有效。在
另外,站点还有一些负载需要等待,我已经习惯了函数WebDriverWait
,但是它应该与表的存在联系在一起,如果find_element
不起作用,我猜WebDriverWait
也不可能。在
如果你分析这个网站,并且它通过chrome开发工具在后台工作,这很简单。在
在深入研究scraping之前,您需要了解web中的ajax请求。大多数网站使用ajax请求,因此,所有内容都是动态加载的。在
应遵循的步骤:
对于网站-http://www.bmfbovespa.com.br/pt_br/servicos/market-data/cotacoes/mercado-de-derivativos/?symbol=DI1,这是图片。在
您可以看到正在调用dl1api。转到标题并查看url。 现在你知道网址了。因此,使用python很容易获得数据。这是密码。在
上述程序的输出如下
^{pr2}$相关问题 更多 >
编程相关推荐