编辑:问题已解决!在
我在获取innerHTML以便访问标记时遇到困难,因为程序在我能够取回html之前将超时。我还是比较新的,所以我使用的方法是我发现的(以前在我的代码中已经使用过一次)。在
这是我试图访问的一个网站:“https://blog.naver.com/lily8744/221229107142”
以下是错误消息:“…raise TimeoutException(message,screen,stacktrace)
selenium.common.异常
下面是代码的相关部分(我的导入工作是因为我已经在上面的代码中使用过它)
def pull_data(linksarray, textdata):
for item in linksarray:
driver.get(item)
wait = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, 'body')))
blog_post_inner = driver.execute_script("return arguments[0].innerHTML", wait)
soup = BeautifulSoup(blog_post_inner, 'html.parser')
for blogtext in soup.find_all('p', class_="se_textarea"):
print(blogtext.get_text())
编辑:我需要innerHTML,因为我需要标记,页面源没有我需要的数据。在
目前没有回答
相关问题 更多 >
编程相关推荐