我对Python是个新手,对它不是很在行。我试图从一个名为Transfermarkt(我是一个足球迷)的网站上进行web抓取,但是当我尝试提取数据时,它给了我一个HTTP错误404。这是我的代码:
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
my_url = "https://www.transfermarkt.com/chelsea-fc/leihspielerhistorie/verein/631/plus/1?saison_id=2018&leihe=ist"
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")
for che in chelsea:
player = che.tbody.tr.td.table.tbody.tr.td["spielprofil_tooltip tooltipstered"]
print("player: " +player)
错误提示:
^{pr2}$任何帮助都将不胜感激,谢谢各位x
正如上面提到的,你的用户代理可能已经被服务器拒绝了。在
尝试使用以下内容扩充代码:
完成以上代码后,您可以继续分析。Python文档中有一些关于这个主题的有用页面:
https://docs.python.org/3/library/urllib.request.html#examples
https://docs.python.org/3/library/urllib.request.html
Mozilla的文档中有大量用户代理字符串可供尝试:
https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers/User-Agent
相关问题 更多 >
编程相关推荐