如何用python抓取在切换按钮上创建的动态网站?

2024-10-03 23:30:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我想刮表的网站布局从www.crackwatch.com网站 当你点击网站右上角的切换按钮时,它会将布局更改为表格形式,其中列出了更多的游戏历史记录。。。我想把那里的每一场比赛都抢回来。。。在

问题是,如何下载表格格式的布局网站?正如它看起来,当我点击按钮时,网站是动态生成的,因此我没有网站地址或类似的刮刮元素。。。在

我要用硒还是类似的?在


Tags: com游戏元素历史记录网站地址www格式
1条回答
网友
1楼 · 发布于 2024-10-03 23:30:49

你可以同时使用两个Python库:beauthulsoup和Selenium

如果在单击切换按钮后将内容加载到表中,则需要使用Selenium并通过driver.page_源为了美化自己,由于内容是在网站内部动态创建的,不包含在原始源HTML中(这将是IMO最直观的实现):

soup = BeautifulSoup(driver.page_source, 'html.parser')

table = soup.find_all('tbody', {'id': 'games-table-adder'})

for row in table:

    #Extract the information that you are interested in here

很抱歉,如果这不是完全功能,无法在工作中测试防火墙。在

但是,如果表包含在原始源HTML中,则可以通过将网站的URL传递给Python的请求库,然后将其传递给BeautifulGroup(类似于上述内容)来访问此表:

^{pr2}$

希望这能让你开始。在

相关问题 更多 >