无法加载页面以刮除文章标记 - 问答 - Python中文网

无法加载页面以刮除文章标记

2024-09-27 19:30:54 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正试图在这个链接上搜集文章的内容：https://onlinelibrary.wiley.com/doi/full/10.1111/jvim.15224

我已经使用Selenium来加载页面（PhantomJS和Firefox），但是我似乎无法获得文章标签

此行是为了等待页面加载：

element = WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.CLASS_NAME, "article-section__sub-title section1")))

或者，我也尝试等待文章标签加载

然而，驱动程序会在几秒钟后继续运行，但是每当我检查等待后得到的html时，只会出现“head”和“body”标记—只是标记，没有它们的内容

你知道我在让页面加载和刮去文章标签时犯了什么错误吗

Tags： https 标记 com 内容链接 selenium 文章 doi

1条回答

网友

1楼 · 发布于 2024-09-27 19:30:54

要刮除文章标签而不是使用presence_of_element_located()，需要使用visibility_of_all_elements_located()方法，并且可以使用以下解决方案：

代码块：

driver.get("https://onlinelibrary.wiley.com/doi/full/10.1111/jvim.15224")
tags = WebDriverWait(driver, 20).until(EC.visibility_of_all_elements_located((By.CSS_SELECTOR, "h3.article-section__sub-title.section1")))
for tag in tags:
    print(tag.text)

控制台输出：

Background
Objective
Animals
Methods
Results
Conclusions and Clinical Importance

相关问题更多 >

编程相关推荐

热门问题

热门文章