R/Python中的Web抓取

2024-10-06 06:44:07 发布

男 | 程序猿一只，喜欢编程写python代码。

我需要从https://eservices.dha.gov.ae/DHASearch/UIPages/ProfessionalSearch.aspx?PageLang=En提取数据。我需要4列-“姓名”，“性别”，“职称”，“医院名称”，“联系方式”。“标题”信息将显示当你点击一个名字。我面临的另一个问题是从多个页面提取信息。总共有10071条记录。我需要所有这些记录的信息。目前我正在R中使用rvest包，但它抛出错误。请参阅下面的代码-

   library(rvest)
    session = html_session("https://eservices.dha.gov.ae/DHASearch/UIPages/ProfessionalSearch.aspx")
    form = html_form(session)[[1]]

错误：下标越界

我对Python的解决方案持开放态度。我是Python中使用beauthoulsoup的新手。任何帮助将不胜感激！在

Tags： https 信息 session html 错误 service 记录 gov

1条回答

网友

1楼 · 发布于 2024-10-06 06:44:07

如果您有权获取所有这些个人信息，那么最好的方法就是使用python中的selenium和一个web驱动程序来导航页面，方法是调用用于每个分页页面的js函数调用，并提取每个页面的页面源代码。当使用Javascript调用加载数据时，这可能是最好的选择。在

R/Python中的Web抓取

相关问题更多 >

编程相关推荐

热门问题

热门文章

R/Python中的Web抓取

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >