java修改Nutch crawler来解析页面,并从被爬网的页面中获取特定数据
我想爬网几个网站,并收集基于语言的数据,如“Java”等。我是Nutch crawler的新手。我刚刚用HBase安装完Nutch 2.3。如何自定义爬网,以便在解析每个页面时,我可以获取该页面中的链接,并从中提取一些数据。比如日期、话题等
谢谢
你可以在下面搜索框中键入要查询的问题!
我想爬网几个网站,并收集基于语言的数据,如“Java”等。我是Nutch crawler的新手。我刚刚用HBase安装完Nutch 2.3。如何自定义爬网,以便在解析每个页面时,我可以获取该页面中的链接,并从中提取一些数据。比如日期、话题等
谢谢
# 1 楼答案
可能晚了,但对任何面临同样问题的人来说。这可以通过提供自己的ParseFilter插件来解决
你可以在this documentation上阅读关于插件的内容
基本上,您实现了方法parse,该方法将DocumentFragment对象作为参数。从DocumentFragment中,您可以使用xPath解析所需的任何信息。解析后的数据可以保存在网页元数据中
在你实现插件后,你只需要把它包含在源代码中,在nutch网站上使用。xml,构建,你就可以开始了