负责任的时间延迟web爬网 - 问答 - Python中文网

负责任的时间延迟web爬网

2024-05-14 05:06:36 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

在一个只爬行一个根页面的网络爬虫程序中，什么是负责任的/合乎道德的时间延迟？在

我在用时间。睡觉（#）在以下调用之间
请求.get（url）

我想大致了解一下时间表： 1太保守了 2标准三。会引起麻烦/引起注意

我想触摸每一页（至少20000页，可能更多）符合某些标准。这在合理的时间范围内可行吗？在

编辑
这个问题不是关于避免被阻止（尽管有任何相关信息。更确切地说，延迟时间不会对主机网站/服务器造成问题。我测试了10秒的延时和大约50页。我只是不知道我是不是太谨慎了。在

Tags：程序网络服务器信息 url 编辑标准 get

1条回答

网友

1楼 · 发布于 2024-05-14 05:06:36

我会检查他们的机器人.txt. 延迟使用列表，如果是的话！如果没有，尝试一些合理的方法（这取决于页面的大小）。如果是一个大页面，请尝试2/s。如果是一个简单的.txt文件，10/秒就可以了。在

如果他们没能很好的联系到网站的所有者。在

_{（我假设这是一个带宽最小的业余服务器）}

相关问题更多 >

编程相关推荐

热门问题

热门文章