负责任的时间延迟web爬网

2024-05-14 05:06:36 发布

您现在位置:Python中文网/ 问答频道 /正文

在一个只爬行一个根页面的网络爬虫程序中,什么是负责任的/合乎道德的时间延迟?在

我在用时间。睡觉(#)在以下调用之间
请求.get(url)

我想大致了解一下时间表: 1太保守了 2标准 三。会引起麻烦/引起注意

我想触摸每一页(至少20000页,可能更多)符合某些标准。这在合理的时间范围内可行吗?在

编辑
这个问题不是关于避免被阻止(尽管有任何相关信息。更确切地说,延迟时间不会对主机网站/服务器造成问题。 我测试了10秒的延时和大约50页。我只是不知道我是不是太谨慎了。在


Tags: 程序网络服务器信息url编辑标准get
1条回答
网友
1楼 · 发布于 2024-05-14 05:06:36

我会检查他们的机器人.txt. 延迟使用列表,如果是的话!如果没有,尝试一些合理的方法(这取决于页面的大小)。如果是一个大页面,请尝试2/s。如果是一个简单的.txt文件,10/秒就可以了。在

如果他们没能很好的联系到网站的所有者。在

(我假设这是一个带宽最小的业余服务器)

相关问题 更多 >