下午好
我对网络垃圾相当陌生。我正试图从一个开放源码门户中获取一个数据集。只是想弄清楚我怎样才能从网站上搜刮。 我正在尝试从数据.toerismevalaanderen.be 这是我想要的数据集:https://data.toerismevlaanderen.be/tourist/reca/beer_bars
我总是以一个http错误结束:http错误404:找不到
这是我的密码:
import requests
import urllib.request
import time
from bs4 import BeautifulSoup
url = 'https://data.toerismevlaanderen.be/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
soup.findAll('a')
one_a_tag = soup.findAll('a')[35]
link = one_a_tag['href']
download_url = 'https://data.toerismevlaanderen.be/'+ link
urllib.request.urlretrieve(download_url,'./'+link[link.find('/tourist/reca/beer_bars_')+1:])
time.sleep
我做错什么了?你知道吗
这个有an API,所以我会用它
例如
你得到许多绝对链接作为回报。将其添加到新请求的原始url将不起作用。只需请求你抓取的“链接”就可以了
问题如下:
这将返回一个链接:
https://data.toerismevlaanderen.be/
然后通过执行以下操作将此
link
添加到download_url
:因此,如果你
print(download_url)
,你会得到:它不是有效的url。你知道吗
根据评论更新
问题是,在你所抓取的文本中没有
tourist/activities/breweries
。 如果你写:你可以看到所有的a href标签。没有包含
tourist/activities/breweries
但是 如果您只需要链接
data.toerismevlaanderen.be/tourist/activities/breweries
,可以执行以下操作:相关问题 更多 >
编程相关推荐