2024-10-03 23:30:49 发布
网友
我想刮表的网站布局从www.crackwatch.com网站 当你点击网站右上角的切换按钮时,它会将布局更改为表格形式,其中列出了更多的游戏历史记录。。。我想把那里的每一场比赛都抢回来。。。在
问题是,如何下载表格格式的布局网站?正如它看起来,当我点击按钮时,网站是动态生成的,因此我没有网站地址或类似的刮刮元素。。。在
我要用硒还是类似的?在
你可以同时使用两个Python库:beauthulsoup和Selenium
如果在单击切换按钮后将内容加载到表中,则需要使用Selenium并通过driver.page_源为了美化自己,由于内容是在网站内部动态创建的,不包含在原始源HTML中(这将是IMO最直观的实现):
soup = BeautifulSoup(driver.page_source, 'html.parser') table = soup.find_all('tbody', {'id': 'games-table-adder'}) for row in table: #Extract the information that you are interested in here
很抱歉,如果这不是完全功能,无法在工作中测试防火墙。在
但是,如果表包含在原始源HTML中,则可以通过将网站的URL传递给Python的请求库,然后将其传递给BeautifulGroup(类似于上述内容)来访问此表:
希望这能让你开始。在
你可以同时使用两个Python库:beauthulsoup和Selenium
如果在单击切换按钮后将内容加载到表中,则需要使用Selenium并通过driver.page_源为了美化自己,由于内容是在网站内部动态创建的,不包含在原始源HTML中(这将是IMO最直观的实现):
很抱歉,如果这不是完全功能,无法在工作中测试防火墙。在
但是,如果表包含在原始源HTML中,则可以通过将网站的URL传递给Python的请求库,然后将其传递给BeautifulGroup(类似于上述内容)来访问此表:
^{pr2}$希望这能让你开始。在
相关问题 更多 >
编程相关推荐