基于特定列标题提取HTML表

from bs4 import BeautifulSoup import requests url = 'https://www.sec.gov/Archives/edgar/data/66740/000120677420000907/mmm3661701-def14a.htm' r = requests.get(url) soup = BeautifulSoup(r.text, 'html.parser') rows = soup.find_all('tr')

1条回答

网友

1楼 · 发布于 2024-09-22 10:12:56

当然可以这样做，根据documentation使用match和attrs使用pandas{}函数

import pandas as pd

df = pd.read_html(
    "https://www.sec.gov/Archives/edgar/data/66740/000120677420000907/mmm3661701-def14a.htm", attrs={'style': 'border-collapse: collapse; width: 100%; font: 9pt Arial, Helvetica, Sans-Serif'}, match="Non-Employee Directors")

print(df)

df[0].to_csv("data.csv", index=False, header=False)

输出：View-Online