有没有办法把这篇文章的第一页翻出来:
https://www.sportstats.ca/display-results.xhtml?raceid=23666
我曾经尝试过硒,并取得了不同程度的成功。我发现它很重,有时不起作用,有时挂着。如果可能的话,我宁愿避免它,而只是使用urllib.请求然后用header/cookies来查找我要查找的数据。在
这些是障碍:
1)当您转到另一个页面时,URL不会更改。在
2)转到下一页的链接(例如)是JS之类的,不容易处理:
<li><a id="mainForm:j_idt341" href="#" class="ui-commandlink ui-widget fa fa-angle-right" onclick="PrimeFaces.ab({s:"mainForm:j_idt341",p:"mainForm",u:"mainForm:result_table mainForm:pageNav mainForm:eventAthleteDetailsDialog",onco:function(xhr,status,args){hideDetails('athlete-popup');showDetails('event-popup');scrollToTopOfElement('mainForm\\:result_table');;}});return false;"></a>
有谁能给我指一个正确的方向来浏览这篇文章并把每一页都擦掉。在
我想你可以用硒来做,不用太麻烦。按钮的id遵循一个模式“主窗体:j逯idt336:0:j_idt338“,递增。您可以使用find by id从Selenium中找到按钮,也可以按id单独处理“>;”按钮以向前移动。 id似乎是以某种方式生成的,但您可以让selenium脚本将该格式作为参数,并创建另一个脚本,仅用于获取该id格式。 另请看一下mechanize。在
相关问题 更多 >
编程相关推荐