python中web抓取的For循环

browser = webdriver.Chrome(r"C:\...\chromedriver.exe") df = pd.DataFrame(columns = ['ceo', 'value']) baseUrl = 'https://www.google.com/search?q=' html = browser.page_source soup = BeautifulSoup(html) ceo_list = ["Bill Gates", "Elon Musk", "Warren Buffet"] values =[] for ceo in ceo_list: browser.get(baseUrl + ceo) r = soup.select('div.g.rhsvw.kno-kp.mnr-c.g-blk') df = pd.DataFrame() for i in r: value = i.select_one('div.Z1hOCe').text ceo = i.select_one('.kno-ecr-pt.PZPZlf.gsmt.i8lZMc').text values = [ceo, value] s = pd.Series(values) df = df.append(s,ignore_index=True) print(df)

0 1 0 Bill Gates Born:.......... 1 Elon Musk Born:........... 2 Warren Buffett Born: August 30, 1930 (age 89 years), Omaha, N... Any suggestions or comments are welcome here.

1条回答

网友

1楼 · 发布于 2024-09-28 21:10:50

在for循环外声明df = pd.DataFrame()

目前，您已经在循环中定义了它，对于列表中的每个关键字，它将初始化一个新的数据帧，旧的数据帧将被替换。这就是为什么您只得到最后一个关键字的结果

试试这个：

browser = webdriver.Chrome(r"C:\...\chromedriver.exe")
df = pd.DataFrame(columns = ['ceo', 'value'])
baseUrl = 'https://www.google.com/search?q='
html = browser.page_source
soup = BeautifulSoup(html)
ceo_list = ["Bill Gates", "Elon Musk", "Warren Buffet"]
df = pd.DataFrame()
for ceo in ceo_list:
    browser.get(baseUrl + ceo)
    r = soup.select('div.g.rhsvw.kno-kp.mnr-c.g-blk')
    for i in r:
        value = i.select_one('div.Z1hOCe').text                     
        ceo = i.select_one('.kno-ecr-pt.PZPZlf.gsmt.i8lZMc').text
    s = pd.Series([ceo, value])
    df = df.append(s,ignore_index=True)
print(df)

相关问题更多 >

编程相关推荐

热门问题

热门文章