java如何处理海量web抓取请求

1 年，10 月 Questions & Answers 185

当我们的网页被许多客户端抓取时，我们的服务器承受着巨大的压力。有时，我们的网页会被从许多不同的IP地址中删除，而这些IP地址并不属于像谷歌、必应这样的著名蜘蛛。所以我们基于IP地址的防御策略是没有用的。我们希望我们的一些网页能被正常的蜘蛛以适当的频率抓取，但我们反对任何可能对我们的服务器造成损害的人。缓存可能是一种选择。但我们有这么多的搜索引擎优化网址。例如，我们有一些URL的模式是“https://www.xxxx.com/hot-goods/mobile-phone-1.html”。此页面显示有关手机的产品列表。一个搜索词的搜索结果有数千页。所以缓存的命中率可能不是很高。所以我只是想知道是否有其他解决方案来减轻我们服务器的压力

Tags: