Selenium/XPath在两个标记之间获取HTML

3条回答

网友
1楼 · 编辑于 2024-09-27 07:27:31

基于您的HTML Yes，您可以使用字符串操作和其他方法（如Splitlines()和js executor）来实现这一点
标识p标记，然后查找childNodes值，然后查找span文本
要中断行，您需要标识body tag，然后使用Splitlines()
代码：
i=2 for item in driver.find_elements_by_css_selector('p.pclass'): print(driver.execute_script('return arguments[0].childNodes[2].textContent;', item).strip()) print(item.find_element_by_xpath("./span").text) message=driver.find_element_by_tag_name("body").text.splitlines() print(message[i]) i=i+4 print("#########################################")
控制台输出：
Message 1: Received: 214-2342-234 This is message nr. 1 it contains different stuff like bold text, etc. ######################################### Message 2: Received: 214-46546-23532 Message nr. 2 may contain other stuff (maybe even a table...) ######################################### Message 3: Received: 214-7876967666 This message contained 2 hyperlinks before the received-timestamp. #########################################

网友
2楼 · 编辑于 2024-09-27 07:27:31

要从文本节点提取文本，必须为visibility_of_element_located()诱导WebDriverWait，可以使用以下解决方案：
使用XPATH和splitlines()：
要提取消息1:：
print(WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.XPATH, "//body/p[@class='pclass']"))).get_attribute("innerHTML").splitlines()[1])
提取收到的：214-2342-234：
print(WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.XPATH, "//body/p[@class='pclass']//span"))).text)
要提取这是它包含的第1条消息：
print(WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.XPATH, "//body"))).get_attribute("innerHTML").splitlines()[7])
使用XPATH和子节点：
要提取消息1:：
print(driver.execute_script('return arguments[0].childNodes[2].textContent;', WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.XPATH, "//body/p[@class='pclass']")))).strip())
提取收到的：214-2342-234：
print(WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.XPATH, "//body/p[@class='pclass']//span"))).text)
要提取这是它包含的第1条消息：
print(driver.execute_script('return arguments[0].childNodes[3].textContent;', WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.XPATH, "body")))).strip())
注意：您必须添加以下导入：
from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC
参考资料
您可以在以下内容中找到一些相关的详细讨论：
How to retrieve partial text from a text node using Selenium and Python

网友
3楼 · 编辑于 2024-09-27 07:27:31

消息名
text = driver.find_element_by_xpath('/html/body/p[2]').get_attribute('innerText') name = text.split(':')[0] print(name)
接收时间戳
timestamp = driver.find_element_by_xpath('/html/body/p[1]/span').get_attribute('innerText') print(timestamp)
消息文本
import re
message_text = driver.find_element_by_tag_name('body').get_attribute('innerText')print(re.findall(re.escape('\n\n\n')+"(.*)"+re.escape('\n\n\n\n'),message_text)[0])

参考资料

相关问题更多 >

编程相关推荐

热门问题

热门文章