Web刮取并从整个表的td中提取属性值，而不是文本值

<tr data-row="0"> <th scope ="row" class="left" data_append-csv="AlleRi00" data-stat="player" csk="Allen, Ricardo"> <a href="/players/A/AlleRi00.htm">Ricardo Allen </a> </th> <td class="center poptip out dnp" data-stat="week_4" data-tip"Out: Concussion" csk= "4"> <strong>O</strong> </td>

import pandas as pd from bs4 import BeautifulSoup import requests url = 'https://www.pro-football-reference.com/teams/atl/2017_injuries.htm' r = requests.get(url) soup = BeautifulSoup(r.content, 'lxml') table = soup.find('table', attrs={'class': 'sortable', 'id': 'team_injuries'}) table_rows = table.find_all('tr') final_data = [] for tr in table_rows: td = tr.find_all(['th','td']) row = [tr.text for tr in td] final_data.append(row) df = pd.DataFrame(final_data[1:],final_data[0])

1条回答

网友

1楼 · 发布于 2024-10-04 05:23:01

这将有助于您：

import pandas as pd
from bs4 import BeautifulSoup
import requests

url = 'https://www.pro-football-reference.com/teams/atl/2017_injuries.htm'
r = requests.get(url)
soup = BeautifulSoup(r.content, 'lxml')
table = soup.find('table', attrs={'class': 'sortable', 'id': 'team_injuries'})
table_rows = table.find_all('tr')

final_data = []
for tr in table_rows:
    td = tr.find_all(['th','td'])
    row = [tr['data-tip'] if tr.has_attr("data-tip") else tr.text for tr in td]

    final_data.append(row)

m = final_data[1:]
final_dataa = [[m[j][i] for j in range(len(m))] for i in range(len(m[0]))]

df = pd.DataFrame(final_dataa,final_data[0]).T

df.to_csv("D:\\injuries.csv", index = False)

csv文件的屏幕截图（我做了一些格式化，使它看起来整洁）：

相关问题更多 >

编程相关推荐

热门问题

热门文章