有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

JavaNutchAPI建议

我正在做一个项目,我需要一个成熟的爬虫来做一些工作,为此我正在评估Nutch。 我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫程序,我需要它能够只重新爬网站点的更新资源,并跳过已经爬网的部分。 有没有人有过直接在Java中而不是通过命令行使用Nutch代码的经验。我想简单地开始:创建一个爬虫(或类似的),最低限度地配置它并启动它,没有什么新奇的。 是否有这样的例子,或者我应该看的资源?我正在浏览Nutch文档,但大部分都是关于命令行、搜索和其他东西的。 无需索引和搜索,Nutch爬行模块的可用性如何? 感谢您的帮助。 谢谢


共 (1) 个答案

  1. # 1 楼答案

    Nutch很可能与你曾经练习过的非常不同。 因为它有点像一个框架,它不仅有用于查询的前端;搜索,尽管solr似乎比原生的Nutch搜索前端更强大。它还具有爬行部分和索引(进入Lucene indexe)

    如果您想将爬网应用于搜索以外的其他用途,则需要开发自己的程序,并熟悉Hadoop和MapReduce编程

    不确定你想用爬行做什么,但看起来Nutch不是解决方案