如何用Python从Wikipedia下载Pandas数据框选项卡？

2条回答

网友

1楼 · 编辑于 2024-10-03 11:18:51

类型1:

只需使用pandas方法pd.read_html方法，并从中提取所需的df

import pandas as pd
res=pd.read_html("https://pl.wikisource.org/wiki/Polskie_powiaty_wed%C5%82ug_kodu_TERYT")
df=res[3]

类型2:

您可以同时使用request和bs4模块来查找表并将数据解析到pandas方法

import requests
from bs4 import BeautifulSoup
res=requests.get("https://pl.wikisource.org/wiki/Polskie_powiaty_wed%C5%82ug_kodu_TERYT")
soup=BeautifulSoup(res.text,"html.parser")

data=soup.find_all("table")[3]
df=pd.read_html(str(data))
df[0]

输出：

    Nazwa powiatu   TERYT
0   aleksandrowski  04 01
1   augustowski     20 01
.   .....          ..

网友

2楼 · 编辑于 2024-10-03 11:18:51

在需要使用库搜索标记（我使用BeautifulSoup）之后，您需要使用请求库刮取HTML。代码与此类似：

import requests
from bs4 import BeautifulSoup

URL = "https://pl.wikisource.org/wiki/Polskie_powiaty_wed%C5%82ug_kodu_TERYT"
page = requests.get(URL)

soup = BeautifulSoup(page.content, "html.parser")
results = soup.find("div", {"id":"mw-content-text"}).find("table",{"border":1}).find_all("td")
namelist = [results[i].text for i in range(0,len(results),2)]
numberlist = [results[i].text.strip('\n') for i in range(1,len(results),2)]

然后返回字符串类型的值。或者你可以得到所有的值作为一个列表。这是非常简单的转换成熊猫后

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何用Python从Wikipedia下载Pandas数据框选项卡？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >