java使用HtmlParseFilter和Nutch 1.5中的Tika解析器

6 月，1 周 Questions & Answers 264

我想做的是：编写一个Nutch插件，从爬网的每个页面接收解析的数据。我知道HtmlParseFilter满足了我对HTML页面的需求，但我也想处理其他类型的内容。当Tika解析PDF或Word文档时，它会将结果传递给我注册的HtmlParseFilter？如果没有，有没有其他方法来拦截Tika的输出

Tags: