使用Soup从HTML属性中提取值

<table class="premium"> <tr class="retailer top-offer" data-pricer="47.84" saler-id="123">...</td> <tr class="retailer" data-pricer="57.11" saler-id="234">...</td> </table> <table class="basic-supp"> <tr class="retailer top-offer" data-pricer="41.87" saler-id="456">...</td> <tr class="retailer" data-pricer="58.12" saler-id="567">...</td> </table>

from bs4 import BeautifulSoup with open('file.html', 'r') as f: contents = f.read() soup = BeautifulSoup(contents, 'lxml') tags = soup.find_all('tr') for tag in tags: print(tag.attrs['data-pricer']) > 47.84 > 57.11 > 41.87 > 58.12

2条回答

网友

1楼 · 编辑于 2024-09-30 06:19:14

只使用css选择器更容易：

data = []
for tr in soup.select('table.basic-supp tr'):
    data.append([tr['data-pricer'],tr['saler-id'] ])
print(data)

或者，如果要使用极端列表理解，请使用一行：

[[tr['data-pricer'],tr['saler-id']] for tr in soup.select('table.basic-supp tr')]

无论哪种情况，输出都应为：

[['41.87', '456'], ['58.12', '567']]

网友

2楼 · 编辑于 2024-09-30 06:19:14

首先找到<tr>，然后用tr['data-pricer']得到你想要的

试试这个：

from bs4 import BeautifulSoup

html = '''
<table class="premium">
    <tr class="retailer top-offer" data-pricer="47.84" saler-id="123">...</td>
    <tr class="retailer" data-pricer="57.11" saler-id="234">...</td>
</table>
<table class="basic-supp">
    <tr class="retailer top-offer" data-pricer="41.87" saler-id="456">...</td>
    <tr class="retailer" data-pricer="58.12" saler-id="567">...</td>
</table>
'''

soup = BeautifulSoup(html , 'html.parser')
for table in soup.find_all("table", {"class": "basic-supp"}):
    for tr in table.find_all('tr'):
        print(tr['data-pricer'])

相关问题更多 >

编程相关推荐

热门问题

热门文章