用beautifulsoup刮取数据结果为404

2024-09-30 23:36:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从下面的URL http://www.transfermarkt.co.uk/wettbewerbe/europa抓取数据

我经常用美体素来做这样的工作。但这一次,我得到了一个404错误,但我不知道为什么,因为我可以通过浏览器访问页面。在

这是我的代码:

    url = 'http://www.transfermarkt.co.uk/wettbewerbe/europa'
    response = urllib.request.urlopen(url)
    soup = BeautifulSoup(response)
    print(soup)

我在第2行得到这个错误:urllib.error.HTTPError: HTTP Error 404: Not Found。在

你知道为什么会这样吗?在


Tags: 数据httpurlresponsewww错误urllibsoup
1条回答
网友
1楼 · 发布于 2024-09-30 23:36:48
import requests, bs4
url = 'http://www.transfermarkt.co.uk/wettbewerbe/europa'
headers = {"User-Agent":"Mozilla/5.0"}
response = requests.get(url, headers=headers)
soup = bs4.BeautifulSoup(response.text, 'lxml')
print(soup)

User-Agent添加到requests头中,我使用requests库,您可以使用urllib来执行相同的操作

相关问题 更多 >