en.wikipedia.org/wiki/List_of_neighbourhoods_of_Istanbul
在上面的链接中,有一个伊斯坦布尔社区的联合国表格数据
我想通过这段代码将这些邻域提取到一个数据帧中
import pandas as pd
import requests
from bs4 import BeautifulSoup
wikiurl="https://en.wikipedia.org/wiki/List_of_neighbourhoods_of_Istanbul"
response=requests.get(wikiurl)
soup = BeautifulSoup(response.text, 'html.parser')
tocList=soup.findAll('a',{'class':"new"})
neighborhoods=[]
for item in tocList:
text = item.get_text()
neighborhoods.append(text)
df = pd.DataFrame(neighborhoods, columns=['Neighborhood'])
print(df)
我得到了这个输出:
Neighborhood
0 Maden
1 Nizam
2 Anadolu
3 Arnavutköy İmrahor
4 Arnavutköy İslambey
... ...
705 Seyitnizam
706 Sümer
707 Telsiz
708 Veliefendi
709 Yeşiltepe
710 rows × 1 columns
但有些数据未提取,请检查以下数据并与输出进行比较:
Adalar
Burgazada
Heybeliada
Kınalıada
Maden
Nizam
findall()
不获取称为链接的邻域,而不是类,即
<ol><li><a href="/wiki/Burgazada" title="Burgazada">Burgazada</a></li>
<li><a href="/wiki/Heybeliada" title="Heybeliada">Heybeliada</a></li>
我可以将代码分成两列,每个“邻居”和它的“地区”
您正在尝试从目录中获取此列表吗
请检查这是否解决了您的问题:
输出:
相关问题 更多 >
编程相关推荐