使用BeautifulSoup进行网页抓取时出错

from bs4 import BeautifulSoup import lxml, requests r = requests.get('https://www.google.com/search?q=Tabela+do+Campeonato+Brasileiro+de+Futebol&oq=Tabela+do+Campeonato+Brasileiro+de+Futebol&aqs=chrome..69i57.241j0j1&sourceid=chrome&ie=UTF-8#sie=lg;/g/11fmzksb3y;2;/m/0fnk7q;st;fp;1;;') page = r.text soup = BeautifulSoup(page, 'lxml') for i in soup.find_all('span', class_='ellipsisize hsKSJe'): print(i.text)

1条回答

网友

1楼 · 发布于 2024-09-29 23:27:12

我相信这个问题是因为您正试图使用BeautifulSoup从动态页面获取数据。为此，您可以将selenium与chrome driver一起使用。我将其保存在系统驱动器上自己的文件夹（bin\chromedriver.exe）中

例如，下面给出了前五行（没有足够的持久性来确定其他所有行的选择器，对不起！）

from selenium import webdriver
import pandas as pd

URL = 'https://www.google.com/search?q=Tabela+do+Campeonato+Brasileiro+de+Futebol&oq=Tabela+do+Campeonato+Brasileiro+de+Futebol&aqs=chrome..69i57.241j0j1&sourceid=chrome&ie=UTF-8#sie=lg;/g/11fmzksb3y;2;/m/0fnk7q;st;fp;1;;'
#webdriver and get data from dynamic page
dr = webdriver.Chrome(executable_path=r'C:/bin/chromedriver.exe')
dr.get(URL)
#get table data by xpath
data = dr.find_element_by_css_selector('#rso').get_attribute('outerHTML')
dr.close()

#get data as dataframe
raw = pd.read_html(data)[0]
#organize retrieved columns
labels = raw.columns.values[1:11]
table = raw[labels]
#delete excess column
del table['Club']
table.columns = labels[:-1] #ignore the last value

#view table (can't post an image yet! new here :))

相关问题更多 >

编程相关推荐

热门问题

热门文章