有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java修改Nutch crawler来解析页面,并从被爬网的页面中获取特定数据

我想爬网几个网站,并收集基于语言的数据,如“Java”等。我是Nutch crawler的新手。我刚刚用HBase安装完Nutch 2.3。如何自定义爬网,以便在解析每个页面时,我可以获取该页面中的链接,并从中提取一些数据。比如日期、话题等

谢谢


共 (1) 个答案

  1. # 1 楼答案

    可能晚了,但对任何面临同样问题的人来说。这可以通过提供自己的ParseFilter插件来解决

    你可以在this documentation上阅读关于插件的内容

    基本上,您实现了方法parse,该方法将DocumentFragment对象作为参数。从DocumentFragment中,您可以使用xPath解析所需的任何信息。解析后的数据可以保存在网页元数据中

    在你实现插件后,你只需要把它包含在源代码中,在nutch网站上使用。xml,构建,你就可以开始了