Python抓取页面与不变的URL和JS链接

2024-10-02 00:26:28 发布

您现在位置:Python中文网/ 问答频道 /正文

有没有办法把这篇文章的第一页翻出来:

https://www.sportstats.ca/display-results.xhtml?raceid=23666

我曾经尝试过硒,并取得了不同程度的成功。我发现它很重,有时不起作用,有时挂着。如果可能的话,我宁愿避免它,而只是使用urllib.请求然后用header/cookies来查找我要查找的数据。在

这些是障碍:

1)当您转到另一个页面时,URL不会更改。在

2)转到下一页的链接(例如)是JS之类的,不容易处理:

<li><a id="mainForm:j_idt341" href="#" class="ui-commandlink ui-widget fa fa-angle-right" onclick="PrimeFaces.ab({s:&quot;mainForm:j_idt341&quot;,p:&quot;mainForm&quot;,u:&quot;mainForm:result_table mainForm:pageNav mainForm:eventAthleteDetailsDialog&quot;,onco:function(xhr,status,args){hideDetails('athlete-popup');showDetails('event-popup');scrollToTopOfElement('mainForm\\:result_table');;}});return false;"></a>

有谁能给我指一个正确的方向来浏览这篇文章并把每一页都擦掉。在


Tags: httpsuiwwwdisplaytableresultcafa
1条回答
网友
1楼 · 发布于 2024-10-02 00:26:28

我想你可以用硒来做,不用太麻烦。按钮的id遵循一个模式“主窗体:j逯idt336:0:j_idt338“,递增。您可以使用find by id从Selenium中找到按钮,也可以按id单独处理“>;”按钮以向前移动。 id似乎是以某种方式生成的,但您可以让selenium脚本将该格式作为参数,并创建另一个脚本,仅用于获取该id格式。 另请看一下mechanize。在

相关问题 更多 >

    热门问题