有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java如何处理海量web抓取请求

当我们的网页被许多客户端抓取时,我们的服务器承受着巨大的压力。有时,我们的网页会被从许多不同的IP地址中删除,而这些IP地址并不属于像谷歌、必应这样的著名蜘蛛。所以我们基于IP地址的防御策略是没有用的。我们希望我们的一些网页能被正常的蜘蛛以适当的频率抓取,但我们反对任何可能对我们的服务器造成损害的人。缓存可能是一种选择。但我们有这么多的搜索引擎优化网址。例如,我们有一些URL的模式是“https://www.xxxx.com/hot-goods/mobile-phone-1.html”。此页面显示有关手机的产品列表。一个搜索词的搜索结果有数千页。所以缓存的命中率可能不是很高。所以我只是想知道是否有其他解决方案来减轻我们服务器的压力


共 (1) 个答案

  1. # 1 楼答案

    除了有一个机器人。txt文件,不礼貌的爬虫可能会忽略它,你可以提供一个sitemap.xml文件来列出你的所有页面。爬虫会选择这些,而不是使用你网站的搜索功能,这将减少负载。当URL仅在几个参数上存在差异时,这也是一种避免对同一内容多次请求的方法

    如果你无法避开他们,那就简化他们的工作,这样他们就不会那么讨厌了