pylucene的自定义标记器，它仅基于下划线标记文本（保留空格）

1条回答

网友

1楼 · 发布于 2024-10-02 16:31:41

通过创建一个新的tokenzier，它将除下划线之外的每个字符都视为生成的令牌的一部分（基本上，下划线变成了分隔符），从而使它最终工作

class UnderscoreSeparatorTokenizer(PythonCharTokenizer):
  def __init__(self, input):
    PythonCharTokenizer.__init__(self, input)

  def isTokenChar(self, c):
    return c != "_"

class UnderscoreSeparatorAnalyzer(PythonAnalyzer):
  def __init__(self, version):
    PythonAnalyzer.__init__(self, version)

  def tokenStream(self, fieldName, reader):
    tokenizer = UnderscoreSeparatorTokenizer(reader)
    tokenStream = LowerCaseFilter(tokenizer)
    return tokenStream

编程相关推荐

java使用Jackson解析非同构JSON对象数组
java为什么'Stream<T>：：<A>toArray（IntFunction<A[]>）`接受没有绑定的类型参数A？
java在JavaFX2.0中获取给定布局中的节点大小？
java双链接列表创建节点
java使用HashMap添加、删除和查找
java中push_back（C++）的等效方法是什么？
java在Jetty中运行servlet时获得HTTP 500
用java显示包含图像和文本的页面的最简单文档格式
swing从选项卡窗格Java中的不同选项卡访问数据
字符串Java帮助检查登录类使用。CSV文件

相关问题更多 >

编程相关推荐

热门问题

热门文章

pylucene的自定义标记器，它仅基于下划线标记文本（保留空格）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >