BeautifulSoup如何从伪元素/类获取href链接

import requests from bs4 import BeautifulSoup, SoupStrainer chronobiology = requests.get("https://www.tandfonline.com/toc/icbi20/current") chrono_coverpage = chronobiology.content issues = SoupStrainer(id ='tocList') issues_soup = BeautifulSoup(chrono_coverpage, 'html.parser', parse_only = issues) for issue in issues_soup: print(issue)

1条回答

网友
1楼 · 发布于 2024-10-01 02:29:17

好的，我已经解决了这个问题，尽管我需要填补一些理论空白：
首先，这段代码是解决问题的关键：
可以看出，<div class = 'container'>后面紧跟着一个::before伪元素，我感兴趣的链接包含在这个伪元素下面的div内。最后一个div用::after伪元素完成
首先我意识到我的问题是我需要选择一个伪元素。我发现这在{}的{}中是不可能的，因为显然{}使用了{}，“旨在允许用户使用CSS选择器以XML/HTML元素为目标。它实现了许多伪类[…]。”
该段最后一部分指出：
“汤筛也不会匹配仅在实时浏览器环境中相关的伪类的任何内容，，但如果它们已经实现，它将优雅地处理它们。；”
所以这让我觉得我不知道“只有在实时浏览器环境中才相关的伪类”是什么意思。但后来我对自己说，“但它也说，如果它们已经实现，BS4应该能够解析它们”。由于我可以使用Inspect工具明确地看到包含我感兴趣的href链接的div元素，我认为我必须被实现
这句话的第一部分让我思考：“但我需要一个实时浏览器才能工作吗？”
因此，我想到了Selenium的web驱动程序：
import requests from bs4 import BeautifulSoup, SoupStrainer from selenium import webdriver driver = webdriver.Chrome() url_chronobiology = driver.get("https://www.tandfonline.com/toc/icbi20/current") chronobiology_content = driver.page_source chronobiology_soup = BeautifulSoup(chronobiology_content) chronobiology_soup.select('#tocList > div > div > div.yearContent > div.issues > div > div')
[Out]: []
很明显，这个结果让我很伤心，因为我认为我已经明白发生了什么。但后来我想，如果我从之前打开的浏览器中“点击”了其中一个问题，它会起作用（出于某种原因，老实说，我很确定绝望让我产生了这种想法）
嗯，惊喜惊喜。它成功了：在点击“问题4”并重新运行script之后，我得到了我想要的：
未回答的问题？
1-显然，这些伪元素在单击时仅“存在”，因为否则代码无法识别它们。为什么?
2必须运行什么代码才能进行初始单击并激活这些伪元素，以便代码能够自动打开这些链接并解析我想要的信息？（文章标题）
更新
使用Selenium的ActionChain回答问题2：
import requests from bs4 import BeautifulSoup, SoupStrainer from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChains driver = webdriver.Chrome() url_chronobiology = driver.get("https://www.tandfonline.com/toc/icbi20/current") chronobiology_content = driver.page_source chronobiology_soup = BeautifulSoup(chronobiology_content) action=ActionChains(driver) action.move_to_element(driver.find_element_by_xpath('//*[@id="tocList"]/div/div/div[3]/div[2]/div')).perform() chronobiology_soup.select('#tocList > div > div > div.yearContent > div.issues > div > div')
[Out]: [<div class="loi-issues-scroller"> <a class="open" href="/toc/icbi20/37/4?nav=tocList">Issue<span>4</span></a> <a class="" href="/toc/icbi20/37/3?nav=tocList">Issue<span>3</span></a> <a class="" href="/toc/icbi20/37/2?nav=tocList">Issue<span>2</span></a> <a class="" href="/toc/icbi20/37/1?nav=tocList">Issue<span>1</span></a> </div>]
唯一的缺点是必须在页面上停留Selenium的ActionChain.perform()实际上可以单击元素，但是至少我已经自动完成了这个步骤
如果有人能回答问题1，那就太好了

相关问题更多 >

编程相关推荐

热门问题

热门文章