Python中文
首页
教程
问答
标签
搜索
登录
注册
使用BeautifulSoup(Jupyter笔记本)进行网络垃圾处理
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>下午好</p> <p>我对网络垃圾相当陌生。我正试图从一个开放源码门户中获取一个数据集。只是想弄清楚我怎样才能从网站上搜刮。 我正在尝试从数据.toerismevalaanderen.be 这是我想要的数据集:<a href="https://data.toerismevlaanderen.be/tourist/reca/beer_bars" rel="nofollow noreferrer">https://data.toerismevlaanderen.be/tourist/reca/beer_bars</a></p> <p>我总是以一个http错误结束:http错误404:找不到</p> <p>这是我的密码:</p> <pre><code>import requests import urllib.request import time from bs4 import BeautifulSoup url = 'https://data.toerismevlaanderen.be/' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') soup.findAll('a') one_a_tag = soup.findAll('a')[35] link = one_a_tag['href'] download_url = 'https://data.toerismevlaanderen.be/'+ link urllib.request.urlretrieve(download_url,'./'+link[link.find('/tourist/reca/beer_bars_')+1:]) time.sleep </code></pre> <p>我做错什么了?你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>你得到许多绝对链接作为回报。将其添加到新请求的原始url将不起作用。只需请求你抓取的“链接”就可以了</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
无法使用Django/mongoengine连接到MongoDB(身份验证失败)
7 回答
无法使用Django\u mssql\u后端迁移到外部hos
8 回答
无法使用Django&Python3.4连接到MySql
1 回答
无法使用Django+nginx上载媒体文件
10 回答
无法使用Django1.6导入名称模式
3 回答
无法使用Django1.7和mongodb登录管理站点
9 回答
无法使用Djangoadmin创建项目,进程使用了错误的路径,因为我事先安装了错误的Python
4 回答
无法使用Djangockedi验证CBV中的字段
2 回答
无法使用Djangocketditor上载图像(错误400)
8 回答
无法使用Djangocron进行函数调用
8 回答
无法使用Djangofiler djang上载文件
5 回答
无法使用Djangokronos
8 回答
无法使用Djangomssql provid
5 回答
无法使用Djangomssql连接到带有Django 1.11的MS SQL Server 2016
1 回答
无法使用Djangomssq迁移Django数据库
7 回答
无法使用Djangonox创建用户
8 回答
无法使用Djangopyodb从Django查询SQL Server
2 回答
无法使用Djangopython3ldap连接到ldap
8 回答
无法使用Djangoredis连接到redis
9 回答
无法使用Django中的FK创建新表
8 回答