从维基百科抓取事件列表

2024-10-01 17:33:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用BS4为每月的活动清理wiki页面 我要查找的数据不是存储在表中,而是存储在列表中。 如何解析、清理并将其转换为表

这就是我尝试过的

url = "https://en.wikipedia.org/wiki/Portal:Current_events/October_2019"

html = urlopen(url)

soup = BeautifulSoup(html,'html.parser')

print(soup.prettify())

all_events=soup.find_all("li")

all_events

pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

tableofevents = pd.DataFrame(all_events)

tableofevents

目前不起作用的。。。 任何提示或技巧,谢谢

R


Tags: 数据httpsnoneurldataframe列表htmlwiki
1条回答
网友
1楼 · 发布于 2024-10-01 17:33:19

试试这个:

import requests
from bs4 import BeautifulSoup
base_site = "https://en.wikipedia.org/wiki/Portal:Current_events/October_2019"
response = requests.get(base_site)
html = response.content
soup = BeautifulSoup(html, "html.parser")
links = soup.find_all('a')
empty = []
for i in links:
  try:
    empty.append(i['href'])
  except:
    print('link not found')
import pandas as pd
table = pd.DataFrame(empty)
print(table)

检查此colab笔记本: Link

相关问题 更多 >

    热门问题