如何使elasticsearch返回所有包含某个术语的文档而不得分i

2024-10-03 15:33:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我有以下数据:

{"_index": "simple", "_type": "motorcycle", "_source": {"date": "2018-04-28T10:55", "price": 134900, "sellerName": "Bike MC V\u00e4st AB", "description": "KTM 1290 Super Duke R,Bike G\u00f6teborg M\u00e4tarst\u00e4llning: 498 mil F\u00e4rg: M\u00f6rkbl\u00e5 Typ: Sport Info: M\u00e4rke: KTM 1290 Super Duke R, Bike G\u00f6teborg. F\u00e4rg: Svart. Pris : 134900 kr. \u00c5rsmodell: 2017. M\u00e4tarst\u00e4llning: 498 mil. Senaste service gjordes vid: 498 mil. N\u00e4sta service \u00e4r vid: 1500 mil. Datum f\u00f6r n\u00e4sta besiktning: 2021-04-30. Motoreffekt: 177 HK. Framd\u00e4ck: 60 % kvar, bakd\u00e4ck: 100 % kvar. Utrustning: Arrow slipon inkl original, kraschpuckar, Trackpack. Instruktionsbok, extranyckel medf\u00f6ljer . MC:n har genomg\u00e5tt inbytestest p\u00e5 48 punkter. Nygaranti tom: 2019-04-06. Finansierings ex: 20% kontant = 27059kr, m\u00e5nadsbelopp: 1477kr. MC:n levereras nyservad med nytt bakd\u00e4ck, (KTM 1290 Super Duke R, 1290, sd r, duke, naked, streefighter) Bike G\u00f6teborg 031 3892801", "location": "G\u00f6teborg, Hisingen", "id": 447, "title": "KTM 1290 Super Duke R,Bike G\u00f6teborg", "modelYear": 2017, "url": "https://www.blocket.se/goteborg/KTM_1290_Super_Duke_R_Bike_Goteborg_79076153.htm?ca=11&w=3", "vehicleType": "Sport"}}
{"_index": "simple", "_type": "motorcycle", "_source": {"date": "2018-04-27T16:19", "price": 125000, "sellerName": "Henrik \u00d6rtenwall", "description": "Harley Davidson Night Rod VRSCDX. Fula, breda, l\u00e5nga baksk\u00e4rmen bytt mot en kortare. Utbytta blinkers fram + bak samt baklampa. Nytt rakare, l\u00e4gre, svart styre. M\u00e5nga sm\u00e5 detaljer som bytta fotpinnar, gaffelbensskydd etc. Ca 2800 mil.", "location": "G\u00f6teborg, V\u00e4stra Centrum", "id": 753, "title": "HD Night Rod", "modelYear": 2007, "url": "https://www.blocket.se/goteborg/HD_Night_Rod_79065407.htm?ca=11&w=3", "vehicleType": "Custom"}}

我是这样索引的:

    def create_index(self, file_path):
        """
            Takes path to file containing JSON-formatted data
            and indexes into Elasticsearch index.
        """
        print('Creating index "{}"'.format(INDEX_NAME))

        request_body = {
"settings":{
    "index":{
        "number_of_shards":1,
        "number_of_replicas":0
    }
},
"mappings":{
    "motorcycle":{
        "properties":{
            "location": {
                "type":"keyword",
            },
            "vehicleType": {
                "type": "keyword",
            },
            "description":{
                "type":"text",
                "analyzer":"swedish",
            },
        }
    }
}
        }
        self.es.indices.create(index = INDEX_NAME, body = request_body)
        f_in = open(PATH_TO_DATASET, "r")
        actions = (json.loads(line) for line in f_in)
        print("Performed bulk index: {}".format(bulk(self.es, actions)))
        self.es.indices.refresh(index = "simple")

数据有两个文档。它们都有一个位置字段,在第一个文档中设置为"G\u00f6teborg, Hisingen",在第二个文档中设置为"G\u00f6teborg, V\u00e4stra Centrum"location字段是一个关键字字段,您可以在我的代码中看到。一开始,我使用filterlocation字段进行过滤:

{
    "query": {
        "bool": {
            "filter": [
                {
                    "term": {
                        "location": "PlaceName"
                    }
                }
            ]
         }
     }
}

但是,这要求PlaceName与要返回的文档的location字段完全相同。那不是我想要的我希望返回其location字段包含placeName的任何文档。例如,如果我为location字段指定G\u00f6teborg,那么上面数据中的两个文档都应该匹配。另外,我不希望这会影响文档的分数,因此我可以简单地将其用作过滤器

以下是我的一个尝试:

{
    "query": {
        "bool": {
            "must":{
                "term": {
                    "location": "G\u00f6teborg",
                    "boost":0
                }
            }
        }
    }
}

由于boost字段,此查询无效(返回错误消息)。如果我删除boost,查询将不提供匹配项,这也是不好的

这里有什么问题?如何实现所需的功能

编辑:

此查询也不返回任何结果:

{
    "query": {
        "term": {
            "location":"G\u00f6teborg"
        }
    }
}

另外,把G\u00f6teborg改成Göteborg也会得到同样的结果

编辑2:

{
    "query": {
        "match": {
            "location":{
                "query": "G\u00f6teborg",
                "boost": 0
            }

        }
    }
}

此查询用于返回得分为0的所有相关文档


Tags: 数据文档selfindextypelocationquerysimple
1条回答
网友
1楼 · 发布于 2024-10-03 15:33:41

您应该将location字段的类型更改为text-keyword类型只允许精确匹配,但是它们text字段将使用标准分析器对输入执行analysis,作为分析的一部分,它执行标记化,将文本拆分为单词,这样当您查询该字段时,您也可以匹配部分内容

除此之外,您最好将查询类型从term更改为match,因为您还希望在查询上应用分析器

查询示例:

{
  "query": {
    "bool": {
      "filter": [
        {
          "match": {
            "location": "PlaceName"
          }
        }
      ]
    }
  }
}

相关问题 更多 >