R/Python中的Web抓取

2024-10-06 06:44:07 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要从https://eservices.dha.gov.ae/DHASearch/UIPages/ProfessionalSearch.aspx?PageLang=En提取数据。我需要4列-“姓名”,“性别”,“职称”,“医院名称”,“联系方式”。“标题”信息将显示当你点击一个名字。我面临的另一个问题是从多个页面提取信息。总共有10071条记录。我需要所有这些记录的信息。目前我正在R中使用rvest包,但它抛出错误。请参阅下面的代码-

   library(rvest)
    session = html_session("https://eservices.dha.gov.ae/DHASearch/UIPages/ProfessionalSearch.aspx")
    form = html_form(session)[[1]]

错误:下标越界

我对Python的解决方案持开放态度。我是Python中使用beauthoulsoup的新手。任何帮助将不胜感激!在


Tags: https信息sessionhtml错误service记录gov
1条回答
网友
1楼 · 发布于 2024-10-06 06:44:07

如果您有权获取所有这些个人信息,那么最好的方法就是使用python中的selenium和一个web驱动程序来导航页面,方法是调用用于每个分页页面的js函数调用,并提取每个页面的页面源代码。当使用Javascript调用加载数据时,这可能是最好的选择。在

相关问题 更多 >