使用代理进行抓取如何判断代理是否已死亡,而web阻止了您?

2024-09-30 18:17:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我刮了很多,但到目前为止,我用我的刮VPN。我想开始使用代理,但我遇到的问题,特别是免费代理,是免费代理非常不可靠

与代理问题相比,我如何判断网页是否存在问题?存在超时、connectionerrors等异常,但当代理坏了以及网页出现问题时都会发生这些异常

换句话说,我如何知道我是否需要旋转一个失效的代理,而不是当我想要刮取的URL出现问题时,我应该停止尝试并跳过它


Tags: url网页代理vpnconnectionerrors
1条回答
网友
1楼 · 发布于 2024-09-30 18:17:41

很难区分停机的网站和无法正常工作的代理,因为您可能会遇到相同的HTTP错误

我的建议是创建一个代理检查器:这是一个简单的工具,可以在代理列表上进行迭代,连接到一个代理列表,并访问您控制的网站(想想一个简单的Expressweb服务器和一个端点)。代理检查器将每30秒运行一次

通过这样做,你将保证网站永远不会关闭(你不会阻止自己),如果你得到一个错误,它肯定是一个代理错误

一旦出现错误,您将从列表中删除代理(并在稍后恢复联机时添加)

相关问题 更多 >