java使用HtmlParseFilter和Nutch 1.5中的Tika解析器
我想做的是:编写一个Nutch插件,从爬网的每个页面接收解析的数据。我知道HtmlParseFilter
满足了我对HTML页面的需求,但我也想处理其他类型的内容。当Tika解析PDF或Word文档时,它会将结果传递给我注册的HtmlParseFilter
?如果没有,有没有其他方法来拦截Tika的输出
你可以在下面搜索框中键入要查询的问题!
我想做的是:编写一个Nutch插件,从爬网的每个页面接收解析的数据。我知道HtmlParseFilter
满足了我对HTML页面的需求,但我也想处理其他类型的内容。当Tika解析PDF或Word文档时,它会将结果传递给我注册的HtmlParseFilter
?如果没有,有没有其他方法来拦截Tika的输出
# 1 楼答案
HtmlPasseFilter可以处理所有内容类型(Tika可以)。在2.0版本中,它被重命名为ParseFilter。x分支以更准确地反映其功能