我正试图用BS4刮网站。这是我的网站:
https://www.wsl.ch/de/ueber-die-wsl/news/alle-news.html
我想刮掉这个页面上所有新闻文章的URL。若我只是把url放在请求库中,我就不会得到网站的url。但如果我去查看第页->;网络中,有一个post请求返回包含所有URL的HTML(href-s)。 我必须使用post请求才能获得网站上的所有URL,但问题是我总是收到错误408
url = 'https://www.wsl.ch/de/ueber-die-wsl/news/alle-news.filter.html?tx_wslfilter_filter%5Baction%5D=ajax&tx_wslfilter_filter%5Bcontroller%5D=Filter&cHash=88a50dfb12c7c7e03ce68f244dbfda20'
headers = {
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'en-GB,en-US;q=0.9,en;q=0.8',
'Connection': 'keep-alive',
'Content-Length': '757',
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'Host': 'www.wsl.ch',
'Origin': 'https://www.wsl.ch',
'Referer': 'https://www.wsl.ch/de/ueber-die-wsl/news/alle-news.html',
'Sec-Fetch-Dest': 'empty',
'Sec-Fetch-Mode': 'cors',
'Sec-Fetch-Site': 'same-origin',
'Server-Timing': 'miss, db;dur=63, app;dur=55.2'}
response = requests.post(url, headers = headers)
print(response)
soup = BeautifulSoup(response.content, 'html.parser')
print(soup)
我试过有标题和没有标题,但都一样。 我该怎么办
相关问题 更多 >
编程相关推荐