java定制Solr TokenFilter lemmatizer

3 周，4 日 Questions & Answers 1601

我试图编写一个简单的Solr lemmatizer，用于字段类型，但我似乎找不到任何关于编写令牌过滤器的信息，所以我有点迷路了。这是我目前掌握的代码

import java.io.IOException;
import java.util.List;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

class FooFilter extends TokenFilter {

    private static final Logger log = LoggerFactory.getLogger(FooFilter.class);
    private final CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);
    private final PositionIncrementAttribute posAtt = addAttribute(PositionIncrementAttribute.class);

    public FooFilter(TokenStream input) {
        super(input);
    }

    @Override
    public boolean incrementToken() throws IOException {
        if (!input.incrementToken()) {
            return false;
        }

        char termBuffer[] = termAtt.buffer();
        List<String> allForms = Lemmatize.getAllForms(new String(termBuffer));
        if (allForms.size() > 0) {
            for (String word : allForms) {
                // Now what?
            }
        }

        return true;
    }
}

Tags:

共 (1) 个答案

# 1 楼答案

接下来，你想用你的单词replace或append当前的标记termAtt

示例替换语义

termAtt.setEmpty(); termAtt.copyBuffer(word.toCharArray(), 0, word.length());

添加新标记的示例语义

对于要添加的每个标记，必须设置CharTermAttribute属性，并且incrementToken例程返回true

private List<String> extraTokens = ... public boolean incrementToken() { if (input.incrementToken()){ // ... return true; } else if (!extraTokens.isEmtpy()) { // set the added token and return true termAtt.setTerm(extraTokens.remove(0)); return true; } return false; }

Java问题解答

专注于Java编程过程中的问题、疑难 Bug解决.

最新Java问题

java如何从Vaadin/Spring应用程序提供静态资源？

java无法在startActivityForResult中识别int？

java MongoClient实例能否长期运行

带return语句的javaifelse性能

java无法使用FirbaseUI和Cloud Firestore访问Recyclerview位置

java如何输出我存储的信息？

java如何注入同一接口的多个模拟

java在Netbeans中向Tomcat添加静态文件夹

如何使用ASM Java字节码库用相同类型的新参数替换或包装方法参数？

java文本迭代器和字符串

热门Java问题

javascript如何重定向到另一个网页？

jquery为什么我的JavaScript代码收到“No'AccessControlAllowOrigin'头出现在请求的资源上”错误，而Postman没有？

如何在Java中声明和初始化数组？

如何在Java中生成特定范围内的随机整数？

如何在Java中拆分字符串

python如果_uname _==“_umain__;”：怎么办？

java“无法找到或加载主类”是什么意思？

一行中ArrayList的java初始化

java如何创建文件并写入？

字典如何有效地迭代Java映射中的每个条目？

rest HTTP中POST和PUT的区别是什么？

foreach Java“for each”循环是如何工作的？

推荐Java问答

java读取/写入/存储非常大的序列数据集

API 21上提供的java finishAndRemoveTask（）

java在Kamfka中发送消息时选择源ip地址

Java中的时间自定义动态时钟

Jboss EAP 7.0.9中的java RichFaces 4.3.7:IllegalStateException