表格<table>中的多个表格标题<thead>，以及如何将<thead>中的数据作为表格行进行刮取

import requests from bs4 import BeautifulSoup import pandas as pd url="https://www.worldometers.info/world-population/" r=requests.get(url) print(r) html=r.text soup=BeautifulSoup(html,'html.parser') print(soup.title.text) print() print() live_data=soup.find_all('div',id='maincounter-wrap') print(live_data) for i in live_data: print(i.text) table_body=soup.find('thead') table_rows=table_body.find_all('tr') table_body_2=soup.find('tbody') table_rows_2=soup.find_all('tr') year_july1=[] population=[] yearly_change_in_perchantage=[] yearly_change=[] median_age=[] fertillity_rate=[] density=[]#density (p\km**) urban_population_in_perchantage=[] urban_population=[] for tr in table_rows: td=tr.find_all('td') year_july1.append(td[0].text) population.append(td[1].text) yearly_change_in_perchantage.append(td[2].text) yearly_change.append(td[3].text) median_age.append(td[4].text) fertillity_rate.append(td[5].text) density.append(td[6].text) urban_population_in_perchantage.append(td[7].text) urban_population.append(td[8].text) for tr in table_rows_2: td=tr.find_all('td') year_july1.append(td[0].text) population.append(td[1].text) yearly_change_in_perchantage.append(td[2].text) yearly_change.append(td[3].text) median_age.append(td[4].text) fertillity_rate.append(td[5].text) density.append(td[6].text) urban_population_in_perchantage.append(td[7].text) urban_population.append(td[8].text) headers=['year_july1','population','yearly_change_in_perchantage','yearly_change','median_age','fertillity_rate','density','urban_population_in_perchantage','urban_population'] data_2= pd.DataFrame(list(zip(year_july1,population,yearly_change_in_perchantage,yearly_change,median_age,fertillity_rate,density,urban_population_in_perchantage,urban_population)),columns=headers) print(data_2) data_2.to_csv("C:\\Users\\data_2.csv")

1条回答

网友

1楼 · 发布于 2024-09-29 22:29:04

您可以尝试下面的代码，它将生成所需的数据。如果您需要任何澄清，请务必告诉我：-

import requests
import pandas as pd
url = 'https://www.worldometers.info/world-population/'
html = requests.get(url).content
df_list = pd.read_html(html, header=0)
df = df_list[0]
    #print(df)
df.to_csv("data.csv", index=False)

给我下面的输出

print(df)
    Year (July 1)  Population  ... Urban Pop %  Urban Population
0            2020  7794798739  ...      56.2 %        4378993944
1            2019  7713468100  ...      55.7 %        4299438618
2            2018  7631091040  ...      55.3 %        4219817318
3            2017  7547858925  ...      54.9 %        4140188594
4            2016  7464022049  ...      54.4 %        4060652683
5            2015  7379797139  ...      54.0 %        3981497663
6            2010  6956823603  ...      51.7 %        3594868146
7            2005  6541907027  ...      49.2 %        3215905863
8            2000  6143493823  ...      46.7 %        2868307513
9            1995  5744212979  ...      44.8 %        2575505235
10           1990  5327231061  ...      43.0 %        2290228096
11           1985  4870921740  ...      41.2 %        2007939063
12           1980  4458003514  ...      39.3 %        1754201029
13           1975  4079480606  ...      37.7 %        1538624994
14           1970  3700437046  ...      36.6 %        1354215496
15           1965  3339583597  ...        N.A.              N.A.
16           1960  3034949748  ...      33.7 %        1023845517
17           1955  2773019936  ...        N.A.              N.A.

[18 rows x 9 columns]

相关问题更多 >

编程相关推荐

热门问题

热门文章