谷歌爬网503服务不可用ab

2024-09-26 22:12:58 发布

您现在位置:Python中文网/ 问答频道 /正文

当我在我的服务器上用wget、curl或python对google搜索引擎进行爬网时,我遇到了一个非常奇怪的问题。谷歌将我重定向到一个以[ipv4 | ipv6]开头的地址。google.fr/sorry/IndexRedirect... 最后发送503错误,服务不可用。。。在

有时爬网可以正常工作,有时在白天不工作,我几乎尝试了所有可能的方法:强制ipv4/ipv6而不是主机名、referer、用户代理、vpn、.com/.fr/、代理和tor。。。在

我猜这是谷歌服务器的错误。。。有什么想法吗?谢谢!在

wget "http://google.fr/search?q=test"
--2015-06-03 10:19:52--  http://google.fr/search?q=test
Resolving google.fr (google.fr)... 2a00:1450:400c:c05::5e, 173.194.67.94
Connecting to google.fr (google.fr)|2a00:1450:400c:c05::5e|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: http://ipv6.google.com/sorry/IndexRedirect?continue=http://google.fr/search%3Fq%3Dtest&q=CGMSECABQdAAUQABAAAAAAAAH1QYqPG6qwUiGQDxp4NLQuHgP_i-oiUu0ZShPumAZRF3u_0 [following]
--2015-06-03 10:19:53--  http://ipv6.google.com/sorry/IndexRedirect?continue=http://google.fr/search%3Fq%3Dtest&q=CGMSECABQdAAUQABAAAAAAAAH1QYqPG6qwUiGQDxp4NLQuHgP_i-oiUu0ZShPumAZRF3u_0
Resolving ipv6.google.com (ipv6.google.com)... 2a00:1450:400c:c05::64
Connecting to ipv6.google.com (ipv6.google.com)|2a00:1450:400c:c05::64|:80... connected.
HTTP request sent, awaiting response... 503 Service Unavailable
2015-06-03 10:19:53 ERROR 503: Service Unavailable.

Tags: test服务器comhttp代理search错误google
1条回答
网友
1楼 · 发布于 2024-09-26 22:12:58

谷歌有触发机制来嗅出机器人和其他滥用服务条款的行为,因此他们对同一个IP地址在一定时间内可以拨打的电话数量设置了一个限制(或“节流阀”)。我想大概是每分钟打10个电话。举个例子:如果你把你的网址粘贴到浏览器中,当浏览器出现503错误时,你会收到谷歌的验证码挑战,证明你不是机器人。在

我使用pattern.web模块来做与您所做的基本相同的事情(当然,出于无害的研究目的!),该库的文档显示了最流行的api(Google、Bing、Twitter、Facebook等)的限制。在

尝试每隔15秒左右发送一次请求,以避免超出限制。在

相关问题 更多 >

    热门问题