如何通过Selenium（Python）从博客文章中获取信息

<title>용의주도미스고의 행복만들기♪ : 네이버 블로그</title> </head> <script type="text/javascript" src="https://ssl.pstatic.net/t.static.blog/mylog/versioning/Frameset- 584891086_https.js" charset="UTF-8"></script> <script type="text/javascript" charset="UTF-8"> var photoContent=""; var postContent=""; var videoId = ""; var thumbnail = ""; var inKey = ""; var movieFileSize = ""; var playTime = ""; var screenSize = ""; var blogId = 'ssamssam48'; var blogURL = 'https://blog.naver.com'; var eventCnt = ''; var g_ShareObject = {}; g_ShareObject.referer = "";

2条回答

网友

1楼 · 编辑于 2024-10-02 12:34:01

检索页面标题即오사카유니버셜스튜디오입장권알뜰구매완전。。您可以使用以下代码块：

代码块：

# -*- coding: UTF-8 -*-
import sys,time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver=webdriver.Firefox(executable_path=r'C:\Utility\BrowserDrivers\geckodriver.exe')
driver.get("https://blog.naver.com/ssamssam48/221271075217")
print(driver.title)
WebDriverWait(driver, 10).until(EC.frame_to_be_available_and_switch_to_it((By.XPATH,"//frame[@id='mainFrame']")))
blogName = driver.find_element_by_xpath("//div[@class='nick']/strong").text
print(blogName)
blogAuthor = driver.find_element_by_xpath("//span[@class='itemfont col']").text
print(blogAuthor)
driver.quit()

控制台输出：

오사카 유니버셜스튜디오 입장권 알뜰 구매 완전.. : 네이버블로그
용의주도미스고
(ssamssam48)

更新

根据您在评论中提出的问题，我们通过WebDriverWait(driver, 10).until(EC.frame_to_be_available_and_switch_to_it((By.XPATH,"//frame[@id='mainFrame']")))诱导了一个服务员，该服务员将等待所需的框架和xpathAs //frame[@id='mainFrame']可用，然后切换到它。你知道吗

为什么要等画面？你知道吗

由于您在上一步中调用了url https://blog.naver.com/ssamssam48/221271075217，虽然浏览器客户端（即Web浏览器）将在'document.readyState'等于"complete"时将控件返回到WebDriver实例，但仍然不保证所有WebElements（例如frames），网页上的按钮）已完成加载。因此，为了特别等待所需帧的加载完成，我们引入了frame_to_be_available_and_switch_to_it()方法。你知道吗

详细讨论内容如下：

^{}

网友
2楼 · 编辑于 2024-10-02 12:34:01

您可以使用execute_script方法直接执行此操作。你知道吗
driver.get('https://blog.naver.com/ssamssam48/221271075217') print(driver.execute_script('return blogId'))
上面的代码打印出来
ssamssam48
您可以修改上面的代码，以获得脚本标记中定义的几乎所有js变量。你知道吗
至于标题，运行print driver.title返回
오사카 유니버셜스튜디오 입장권 알뜰 구매 완전.. : 네이버블로그
考虑到你现在在一个特别的岗位上，这看起来是对的。如果您想要博客的标题，可以考虑导航到博客的主页并运行driver.title

更新

为什么要等画面？你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章