无法加载页面以刮除文章标记

2024-09-27 19:30:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图在这个链接上搜集文章的内容:https://onlinelibrary.wiley.com/doi/full/10.1111/jvim.15224

我已经使用Selenium来加载页面(PhantomJS和Firefox),但是我似乎无法获得文章标签

此行是为了等待页面加载:

element = WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.CLASS_NAME, "article-section__sub-title section1")))

或者,我也尝试等待文章标签加载

然而,驱动程序会在几秒钟后继续运行,但是每当我检查等待后得到的html时,只会出现“head”和“body”标记—只是标记,没有它们的内容

你知道我在让页面加载和刮去文章标签时犯了什么错误吗


Tags: https标记com内容链接selenium文章doi
1条回答
网友
1楼 · 发布于 2024-09-27 19:30:54

要刮除文章标签而不是使用presence_of_element_located(),需要使用visibility_of_all_elements_located()方法,并且可以使用以下解决方案:

  • 代码块:

    driver.get("https://onlinelibrary.wiley.com/doi/full/10.1111/jvim.15224")
    tags = WebDriverWait(driver, 20).until(EC.visibility_of_all_elements_located((By.CSS_SELECTOR, "h3.article-section__sub-title.section1")))
    for tag in tags:
        print(tag.text)
    
  • 控制台输出:

    Background
    Objective
    Animals
    Methods
    Results
    Conclusions and Clinical Importance
    

相关问题 更多 >

    热门问题