我是pylucene的新手,我正在尝试构建一个自定义的分析器,它只根据下划线标记文本,也就是说,它应该保留空白。 示例:“Hi\u this is_awesome”应标记为[“Hi”,“this is”,“awesome”]标记。在
从各种代码示例中我了解到,我需要重写CustomTokenizer的incrementToken方法,并编写一个CustomAnalyzer,其中TokenStream需要使用CustomTokenizer后跟一个小写filter来实现相同的效果。在
我在实现incrementToken方法和连接点(通常情况下,分析程序如何使用标记器依赖于依赖于令牌流的TokenFilter)时遇到了问题,因为pylucene上几乎没有可用的文档。在
通过创建一个新的tokenzier,它将除下划线之外的每个字符都视为生成的令牌的一部分(基本上,下划线变成了分隔符),从而使它最终工作
相关问题 更多 >
编程相关推荐