java修改Nutch crawler来解析页面，并从被爬网的页面中获取特定数据

1 周，1 日 Questions & Answers 892

我想爬网几个网站，并收集基于语言的数据，如“Java”等。我是Nutch crawler的新手。我刚刚用HBase安装完Nutch 2.3。如何自定义爬网，以便在解析每个页面时，我可以获取该页面中的链接，并从中提取一些数据。比如日期、话题等

谢谢

可能晚了，但对任何面临同样问题的人来说。这可以通过提供自己的ParseFilter插件来解决

你可以在this documentation上阅读关于插件的内容

基本上，您实现了方法parse，该方法将DocumentFragment对象作为参数。从DocumentFragment中，您可以使用xPath解析所需的任何信息。解析后的数据可以保存在网页元数据中

在你实现插件后，你只需要把它包含在源代码中，在nutch网站上使用。xml，构建，你就可以开始了

Python中文网