使用BeautifulSoup的HTML抓取

1条回答

网友

1楼 · 发布于 2024-10-03 23:19:36

我认为你需要将bs和selenium结合起来，因为有些内容的加载有点慢。您可以使用bs来获取初始链接，然后使用selenium和waits来确保加载每个页面上的内容。您需要首先处理证书问题。你知道吗

我不知道什么是摘要，所以我提供了所有的p标签。这意味着一些重复的信息。你可以改进这个。你知道吗

import requests
from bs4 import BeautifulSoup as bs
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import pandas as pd

baseUrl = 'https://engagements.ceres.org'
results = []
driver = webdriver.Chrome()

r = requests.get('https://engagements.ceres.org/?_ga=2.157917299.852607976.1552678391-697747477.1552678391', verify=False)
soup = bs(r.content, 'lxml')
items =  [baseUrl + item['href'] for item in soup.select("[href*='ceres_engagementdetailpage?recID=']")]

for item in items:
    driver.get(item)
    WebDriverWait(driver,10).until(EC.presence_of_element_located((By.CSS_SELECTOR, "p")))
    title = driver.find_element_by_css_selector('.resolutionsTitle').text
    organisation = driver.find_element_by_css_selector('#description p').text
    year = driver.find_element_by_css_selector('#description p + p').text
    aList = driver.find_elements_by_css_selector('.td2')
    industry = aList[0].text
    filedBy = aList[2].text
    status = aList[5].text
    summary = [item.text for item in driver.find_elements_by_css_selector('#description p')]
    results.append([organization, industry, title, filedBy, status, year, summary])
df = pd.DataFrame(results, headers = ['Organization', 'Industry', 'Title', 'Filed By', 'Status', 'Year', 'Summary'])
print(results)

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用BeautifulSoup的HTML抓取

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >