在'whoscored.com网站'

2024-05-11 19:30:59 发布

您现在位置:Python中文网/ 问答频道 /正文

导入请求 从bs4导入BeautifulSoup

user_agent = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'}
page = requests.get("https://www.whoscored.com/Regions/252/Tournaments/2/England-Premier-League", headers=user_agent)
soup = BeautifulSoup(page.text,'html.parser')


print(soup)

我想在网上拍whoscored.com网站'但是我不能得到所有的HTML告诉我解决方案。

请求失败。Incapsula事件ID:946001050011236585-61439481461474967

这就是结果。


Tags: commozillawindowspageagentsoupx64user
1条回答
网友
1楼 · 发布于 2024-05-11 19:30:59
from selenium import webdriver
import time
from bs4 import BeautifulSoup

browser = webdriver.Firefox()

url = 'https://www.whoscored.com/Regions/252/Tournaments/2/England-Premier-League'
sada = browser.get(url)
time.sleep(3)
source = browser.page_source
soup = BeautifulSoup(source, 'html.parser')
print(soup.prettify())

这里有几个问题。根本原因是,你试图抓取的网站知道你不是一个真正的人,并正在阻止你。很多网站只需检查标题,看看请求是否来自浏览器(robot)。但是,这个站点看起来像是在使用Incapsula,这是为了提供更复杂的保护而设计的

相关问题 更多 >