有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java使用HtmlParseFilter和Nutch 1.5中的Tika解析器

我想做的是:编写一个Nutch插件,从爬网的每个页面接收解析的数据。我知道HtmlParseFilter满足了我对HTML页面的需求,但我也想处理其他类型的内容。当Tika解析PDF或Word文档时,它会将结果传递给我注册的HtmlParseFilter?如果没有,有没有其他方法来拦截Tika的输出


共 (1) 个答案

  1. # 1 楼答案

    HtmlPasseFilter可以处理所有内容类型(Tika可以)。在2.0版本中,它被重命名为ParseFilter。x分支以更准确地反映其功能