JavaLucene实现对相关性的自定义评分

8 月，3 周 Questions & Answers 277

我试图将潜在的狄利克雷分配（LDA）注入到对搜索文档的相关性进行评分中，结果被卡住了。我才刚开始和Lucene打交道。我正在使用“Lucene in Action”中的代码开始

计划是尝试混合使用默认tf idf模型的权重和查询和每个文档的主题向量之间的余弦相似性。e、 g0.5 * tfidf + 0.5 * cos(Q,D)

我已尝试在索引期间使用每个分数索引之间的分隔符存储每个文档的主题向量：

doc.add(new Field("lda score", "0.200|0.111|0.4999",
                  Field.Store.NO,
                  Field.Index.NOT_ANALYZED_NO_NORMS));

然后在搜索过程中：

//tfidf 
Query q = new QueryParser(Version.LUCENE_30,
                          "content",
                          new StandardAnalyzer(
                            Version.LUCENE_30))
             .parse("some text here");
FieldScoreQuery qf = new FieldScoreQuery("lda score",
                                         FieldScoreQuery.Type.BYTE);
CustomScoreQuery customQ = new CustomScoreQuery(q, qf) {
  public CustomScoreProvider getCustomScoreProvider(IndexReader r) {
    return new CustomScoreProvider(r) {
      public float customScore(int doc,
                               float tfidfScore,
                               float ldaScore) {
        return 0.5*tfidfScore + 0.5*ldaScore);
} };

显然，我需要帮助的是FieldScoreQuery部分。我如何读入查询字符串，运行lda推断（与lucene分离的分析）和余弦相似度t为CustomScoreQuery生成要使用的分数

这是正确的方法吗，还是我需要进入Similarity类？一些代码样本，以帮助我开始将不胜感激

Python中文网

有 Java 编程相关的问题?

JavaLucene实现对相关性的自定义评分

共 (1) 个答案

# 1 楼答案