为什么我的函数返回HTTP错误301?

2024-10-04 05:31:59 发布

您现在位置:Python中文网/ 问答频道 /正文

因此,我正在制作一个函数,如果我能在Crunchyroll上观看某部动画,它将返回,但在寻找正确的解决方案几天后,我无法找到答案。我对网络垃圾很陌生,所以我没有任何经验。 以下是我添加的标题。目前唯一起作用的是主机头

header = {
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'en-GB,en;q=0.9,nl;q=0.8,ja;q=0.7',
    'connection': 'keep-alive',
    'cache-control': 'max-age=0',
    'dnt': '1',
    'sec-fetch-dest': 'document',
    'sec-ch-ua-mobile': '?0',
    'sec-fetch-mode': 'navigate',
    'sec-fetch-site': 'none',
    'sec-fetch-user': '?1',
    'sec-ch-ua': '"Google Chrome";v="89", "Chromium";v="89", ";Not A Brand";v="99"',
    'host': 'crunchyroll.com',
    'referer': 'https://www.google.com/',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36'
}

这是我试过的最后一个版本。我已经尝试过使用请求模块,但它总是给我超过20个重定向错误。在使用'allow_redirects=False'后,它会给我301错误,但是如果通过请求模块有解决方案,我也会很高兴

(namelist is for example: [rezero-kara-hajimeru-isekai-seikatsu, rezero-starting-life-in-another-world-, rezero])
for i in namelist:
        
        # Crunchyroll Checker
        Cleanlink = 'https://www.crunchyroll.com/en-gb/'
        attempt = Cleanlink + i
        
        try:
            req = urllib.request.Request(attempt, headers=header)
            cj = CookieJar()
            opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj), urllib.request.HTTPRedirectHandler)
            response = opener.open(req)
            response.close()
            print(response)
        except urllib.request.HTTPError as inst:
            output = format(inst)
            print(output)

这段代码给了我这样的回答:

The last 30x error message was:
Moved Permanently
The last 30x error message was:
Moved Permanently
HTTP Error 301: The HTTP server returned a redirect error that would lead to an infinite loop.
The last 30x error message was:
Moved Permanently

所以我唯一需要的是,代码能够检查网站是否存在。例如:https://www.crunchyroll.com/en-gb/rezero-starting-life-in-another-world-应该返回200代码。 提前谢谢


Tags: thehttpsimagecomapplicationrequestwwwerror
1条回答
网友
1楼 · 发布于 2024-10-04 05:31:59

Crunchyroll有一个非常严格的CloudFlare WAF。如果你的请求有可疑之处,那么马上就会给你带来麻烦。你得到301的可能原因是

  • 也许你是在请求代理
  • WAF可以检查请求者(在您的例子中是urllib,requests模块)是否启用了javascript(因此它可以判断请求者是bot还是真实用户)

解决方案

您应该使用这个Python库来完成请求。它是Python中请求库的包装器,所以我们可以像在Python中使用请求模块一样使用它

https://pypi.org/project/cloudscraper/

注意

即使使用这个库,您也只能在几小时内发送几百个请求。因为WAF仍然会检测到您的IP请求过多并阻止您。Crunchyroll的WAF很恶心

相关问题 更多 >