获取html表中<a>元素的href

<tr class=""> <td>29 September, 2021</td> <td>Antwerp</td> <td><a href="http://data.insideairbnb.com/belgium/vlg/antwerp/2021-09-29/data/listings.csv.gz" onclick="var that=this;ga('send','event', 'download','listings',this.href);setTimeout(function(){location.href=that.href;},200);return false;">listings.csv.gz</a></td> <td>Detailed Listings data for Antwerp</td>

import requests from bs4 import BeautifulSoup from datetime import datetime DATASET_URL = "http://insideairbnb.com/get-the-data.html" DATASET_CITY = "Antwerp" r = requests.get(DATASET_URL) content = r.content soup = BeautifulSoup(content, "html.parser") antwerp_table = soup.find(class_=DATASET_CITY.lower()) print(antwerp_table) # antwerp_table is my html table

<table class="table table-hover table-striped antwerp"> <thead> <tr> <th class="col-md-3" data-field="host_id">Date Compiled</th> <th class="col-md-3" data-field="host_id">Country/City</th> <th class="col-md-3" data-field="host_id">File Name</th> <th class="col-md-3" data-align="right" data-field="count"> Description </th> </tr> </thead> <tbody> <tr class=""> <td>29 September, 2021</td> <td>Antwerp</td> <td><a href="http://data.insideairbnb.com/belgium/vlg/antwerp/2021-09-29/data/listings.csv.gz" onclick="var that=this;ga('send','event', 'download','listings',this.href);setTimeout(function(){location.href=that.href;},200);return false;">listings.csv.gz</a></td> <td>Detailed Listings data for Antwerp</td> </tr> <tr class=""> <td>29 September, 2021</td> <td>Antwerp</td> <td><a href="http://data.insideairbnb.com/belgium/vlg/antwerp/2021-09-29/data/calendar.csv.gz" onclick="var that=this;ga('send','event', 'download','calendar',this.href);setTimeout(function(){location.href=that.href;},200);return false;">calendar.csv.gz</a></td> <td>Detailed Calendar Data for listings in Antwerp</td> </tr> ... <tr class="archived"> <td>17 August, 2021</td> <td>Antwerp</td> <td><a href="http://data.insideairbnb.com/belgium/vlg/antwerp/2021-09-29/data/calendar.csv.gz" onclick="var that=this;ga('send','event', 'download','calendar',this.href);setTimeout(function(){location.href=that.href;},200);return false;">calendar.csv.gz</a></td> <td>Detailed Calendar Data for listings in Antwerp</td> </tr>

3条回答

网友

1楼 · 编辑于 2024-06-28 19:53:03

首先，你必须单独拿桌子
如果使用find，它将查找所有表
我检查了该类有1个表，因此我们可以使用.select_one()
在此之后，您必须使用select(){}元素
这是您想要的工作代码

import requests
from bs4 import BeautifulSoup
from datetime import datetime

DATASET_URL = "http://insideairbnb.com/get-the-data.html"
DATASET_CITY = "Antwerp"
r = requests.get(DATASET_URL)
content = r.content
soup = BeautifulSoup(content, "html.parser")
antwerp_table = soup.select_one(f".{DATASET_CITY.lower()}")
for i in antwerp_table.select("a"):
    print(i.get("href"))

网友

2楼 · 编辑于 2024-06-28 19:53:03

迭代表结果以查找链接

import requests
from bs4 import BeautifulSoup
from datetime import datetime

DATASET_URL = "http://insideairbnb.com/get-the-data.html"
DATASET_CITY = "Antwerp"
r = requests.get(DATASET_URL)
content = r.content
soup = BeautifulSoup(content, "html.parser")
antwerp_table = soup.find(class_=DATASET_CITY.lower())
        
#print(antwerp_table)
rows = (antwerp_table.find_all('tr', class_=''))
for tr in rows:
    cols = tr.findAll('td')
    if len(cols) >= 4:
        link = cols[2].find('a').get('href')
        print link

网友

3楼 · 编辑于 2024-06-28 19:53:03

有不同的方法来获取未归档的{{}，我建议使用{}css选择器来获取包含空{}和{}的所有{}：

soup.select(f'.{DATASET_CITY.lower()} tr[class=""] a')

示例

import requests
from bs4 import BeautifulSoup
from datetime import datetime

DATASET_URL = "http://insideairbnb.com/get-the-data.html"
DATASET_CITY = "Antwerp"
r = requests.get(DATASET_URL)
content = r.content
soup = BeautifulSoup(content, "html.parser")
antwerp_table = [url['href'] for url in soup.select(f'.{DATASET_CITY.lower()} tr[class=""] a')]

输出

['http://data.insideairbnb.com/belgium/vlg/antwerp/2021-09-29/data/listings.csv.gz',
 'http://data.insideairbnb.com/belgium/vlg/antwerp/2021-09-29/data/calendar.csv.gz',
 'http://data.insideairbnb.com/belgium/vlg/antwerp/2021-09-29/data/reviews.csv.gz',
 'http://data.insideairbnb.com/belgium/vlg/antwerp/2021-09-29/visualisations/listings.csv',
 'http://data.insideairbnb.com/belgium/vlg/antwerp/2021-09-29/visualisations/reviews.csv',
 'http://data.insideairbnb.com/belgium/vlg/antwerp/2021-09-29/visualisations/neighbourhoods.csv',
 'http://data.insideairbnb.com/belgium/vlg/antwerp/2021-09-29/visualisations/neighbourhoods.geojson']

示例

输出

相关问题更多 >

编程相关推荐

热门问题

热门文章