废品处理前的预防措施

1条回答

网友

1楼 · 发布于 2024-10-02 06:34:27

首先，学习以下主题，对如何成为一个好的网络抓取公民有一个大致的概念：

一般来说，首先，你需要确保你在法律上被允许浏览这个特定的网站，并遵守他们的使用条款规则。另外，请检查网站的robots.txt，并遵守其中列出的规则（例如，可以设置^{}指令集）。另外，一个好主意是联系网站所有者，让他们知道你将要做什么或请求许可。在

通过显式指定一个User-Agent头来标识自己。在

另请参见：

Should I carry it out in phases (scraping in smaller batches) ?

这就是^{}设置的作用：

The amount of time (in secs) that the downloader should wait before downloading consecutive pages from the same website. This can be used to throttle the crawling speed to avoid hitting servers too hard.

^{}和{a8}也是相关的。在

调整这些设置以避免频繁访问网站服务器。在

What and how should I log ?

Scrapy在控制台上提供的信息非常广泛，但是您可能需要记录爬行时引发的所有错误和异常。我个人喜欢监听spider_error信号的想法，参见：

how to process all kinds of exception in a scrapy project, in errback and callback?

Which other points of attention should I take into account before launching ? You still have several things to think about.

在某些时候，你可能会被禁止。这总是有原因的，最明显的就是你还是会爬得太硬，他们不喜欢。有一些技术/技巧可以避免被禁止，如旋转IP地址、使用代理、在云端抓取网页等，请参阅：

Avoiding getting banned

另一件要担心的事情可能是爬行速度和伸缩性；在这一点上，您可能需要考虑分发您的爬行过程。这是scrapyd会有帮助的，请参阅：

Distributed crawls

不过，要确保你没有越界，站在合法的一边。在

相关问题更多 >

编程相关推荐

热门问题

热门文章