Django haystack EdgeNgramField给出的结果与elasticsearch不同问题的回答

Django haystack EdgeNgramField给出的结果与elasticsearch不同

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

自动完成目前正在运行的Haysticm和Haysticm的城市名称搜索。问题是SearchQuerySet给我的结果与在elasticsearch中直接执行的相同查询不同，从我的角度来看，这是错误的，而对于我来说，这是预期的结果。在 我使用的是：Django 1.5.4， django haystack 2.1.0版， pyelasticsearch 0.6.1版，弹性搜索0.90.3 使用以下示例数据： <ul> <li>中场</li> <li>米德兰市</li> <li>中途</li> <li>小调</li> <li>明顿</li> <li>迈阿密海滩</li> </ul> 使用 <pre><code>SearchQuerySet().models(Geoname).filter(name_auto='mid') or SearchQuerySet().models(Geoname).autocomplete(name_auto='mid') </code></pre> 结果始终返回所有6个名称，包括Min*和Mia*。但是，查询elasticsearch会直接返回正确的数据： ^{pr2}$ 不同例子的行为是一样的。我的猜测是，在干草堆中，字符串被所有可能的“最小值”字符组分割和分析，这就是它返回错误结果的原因。在 我不确定我是否在做或理解错误，如果这就是haystack的工作方式，但我需要haystack的结果与elasticsearch的结果相匹配。在 那么，我怎样才能解决这个问题呢？在 我总结的对象如下： 型号： <pre><code>class Geoname(models.Model): id = models.IntegerField(primary_key=True) name = models.CharField(max_length=255) </code></pre> 索引： <pre><code>class GeonameIndex(indexes.SearchIndex, indexes.Indexable): text = indexes.CharField(document=True, use_template=True) name_auto = indexes.EdgeNgramField(model_attr='name') def get_model(self): return Geoname </code></pre> 映射： <pre><code>modelresult: { _boost: { name: "boost", null_value: 1 }, properties: { django_ct: { type: "string" }, django_id: { type: "string" }, name_auto: { type: "string", store: true, term_vector: "with_positions_offsets", analyzer: "edgengram_analyzer" } } } </code></pre> 谢谢。在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

深入查看代码后，我发现haystack生成的搜索结果是： <pre><code>{ "query":{ "filtered":{ "filter":{ "fquery":{ "query":{ "query_string":{ "query": "django_ct:(csi.geoname)" } }, "_cache":false } }, "query":{ "query_string":{ "query": "name_auto:(mid)", "default_operator":"or", "default_field":"text", "auto_generate_phrase_queries":true, "analyze_wildcard":true } } } }, "from":0, "size":6 } </code></pre> 在elasticsearch中运行这个查询得到的结果是haystack显示的6个对象…但是如果我添加到“query”字符串中 ^{pr2}$ 一切如愿以偿。所以我们的想法是能够为这个领域设置一个不同的搜索分析器。在 根据@user954994答案的链接和对<a href="https://stackoverflow.com/questions/15923480/elastic-search-search-analyzer-vs-index-analyzer">this post</a>的解释，我最终做的是： <ol> <li>我创建了我的自定义elasticsearch后端，在标准的基础上添加了一个新的自定义分析器。在</li> <li>我添加了一个自定义的EdgeNgramField，允许为索引设置一个特定的分析器（index_analyzer）和另一个用于搜索的分析器（search_analyzer）。在</li> </ol> 所以，我的新设置是： <pre><code>ELASTICSEARCH_INDEX_SETTINGS = { 'settings': { "analysis": { "analyzer": { "ngram_analyzer": { "type": "custom", "tokenizer": "lowercase", "filter": ["haystack_ngram"] }, "edgengram_analyzer": { "type": "custom", "tokenizer": "lowercase", "filter": ["haystack_edgengram"] }, "suggest_analyzer": { "type":"custom", "tokenizer":"standard", "filter":[ "standard", "lowercase", "asciifolding" ] }, }, "tokenizer": { "haystack_ngram_tokenizer": { "type": "nGram", "min_gram": 3, "max_gram": 15, }, "haystack_edgengram_tokenizer": { "type": "edgeNGram", "min_gram": 2, "max_gram": 15, "side": "front" } }, "filter": { "haystack_ngram": { "type": "nGram", "min_gram": 3, "max_gram": 15 }, "haystack_edgengram": { "type": "edgeNGram", "min_gram": 2, "max_gram": 15 } } } } } </code></pre> 我的新的自定义构建架构方法如下所示： <pre><code>def build_schema(self, fields): content_field_name, mapping = super(ConfigurableElasticBackend, self).build_schema(fields) for field_name, field_class in fields.items(): field_mapping = mapping[field_class.index_fieldname] index_analyzer = getattr(field_class, 'index_analyzer', None) search_analyzer = getattr(field_class, 'search_analyzer', None) field_analyzer = getattr(field_class, 'analyzer', self.DEFAULT_ANALYZER) if field_mapping['type'] == 'string' and field_class.indexed: if not hasattr(field_class, 'facet_for') and not field_class.field_type in('ngram', 'edge_ngram'): field_mapping['analyzer'] = field_analyzer if index_analyzer and search_analyzer: field_mapping['index_analyzer'] = index_analyzer field_mapping['search_analyzer'] = search_analyzer del(field_mapping['analyzer']) mapping.update({field_class.index_fieldname: field_mapping}) return (content_field_name, mapping) </code></pre> 重建索引后，我的映射如下所示： <pre><code>modelresult: { _boost: { name: "boost", null_value: 1 }, properties: { django_ct: { type: "string" }, django_id: { type: "string" }, name_auto: { type: "string", store: true, term_vector: "with_positions_offsets", index_analyzer: "edgengram_analyzer", search_analyzer: "suggest_analyzer" } } } </code></pre> 现在一切如期进行！在 更新： 下面您可以找到代码来澄清这一部分： <blockquote> <ol> <li>I created my custom elasticsearch backend, adding a new custom analyzer based on the standard one.</li> <li>I added a custom EdgeNgramField, enabling the way to setup an specific analyzer for index (index_analyzer) and another analyzer for search (search_analyzer).</li> </ol> </blockquote> 进入我的应用程序搜索_后端.py公司名称： <pre><code>from django.conf import settings from haystack.backends.elasticsearch_backend import ElasticsearchSearchBackend from haystack.backends.elasticsearch_backend import ElasticsearchSearchEngine from haystack.fields import EdgeNgramField as BaseEdgeNgramField # Custom Backend class CustomElasticBackend(ElasticsearchSearchBackend): DEFAULT_ANALYZER = None def __init__(self, connection_alias, **connection_options): super(CustomElasticBackend, self).__init__( connection_alias, **connection_options) user_settings = getattr(settings, 'ELASTICSEARCH_INDEX_SETTINGS', None) self.DEFAULT_ANALYZER = getattr(settings, 'ELASTICSEARCH_DEFAULT_ANALYZER', "snowball") if user_settings: setattr(self, 'DEFAULT_SETTINGS', user_settings) def build_schema(self, fields): content_field_name, mapping = super(CustomElasticBackend, self).build_schema(fields) for field_name, field_class in fields.items(): field_mapping = mapping[field_class.index_fieldname] index_analyzer = getattr(field_class, 'index_analyzer', None) search_analyzer = getattr(field_class, 'search_analyzer', None) field_analyzer = getattr(field_class, 'analyzer', self.DEFAULT_ANALYZER) if field_mapping['type'] == 'string' and field_class.indexed: if not hasattr(field_class, 'facet_for') and not field_class.field_type in('ngram', 'edge_ngram'): field_mapping['analyzer'] = field_analyzer if index_analyzer and search_analyzer: field_mapping['index_analyzer'] = index_analyzer field_mapping['search_analyzer'] = search_analyzer del(field_mapping['analyzer']) mapping.update({field_class.index_fieldname: field_mapping}) return (content_field_name, mapping) class CustomElasticSearchEngine(ElasticsearchSearchEngine): backend = CustomElasticBackend # Custom field class CustomFieldMixin(object): def __init__(self, **kwargs): self.analyzer = kwargs.pop('analyzer', None) self.index_analyzer = kwargs.pop('index_analyzer', None) self.search_analyzer = kwargs.pop('search_analyzer', None) super(CustomFieldMixin, self).__init__(**kwargs) class CustomEdgeNgramField(CustomFieldMixin, BaseEdgeNgramField): pass </code></pre> 我的索引定义如下： <pre><code>class MyIndex(indexes.SearchIndex, indexes.Indexable): text = indexes.CharField(document=True, use_template=True) name_auto = CustomEdgeNgramField(model_attr='name', index_analyzer="edgengram_analyzer", search_analyzer="suggest_analyzer") </code></pre> 最后，settings当然使用了haystack连接定义的自定义后端： <pre><code>HAYSTACK_CONNECTIONS = { 'default': { 'ENGINE': 'my_app.search_backends.CustomElasticSearchEngine', 'URL': 'http://localhost:9200', 'INDEX_NAME': 'index' }, } </code></pre>

Django haystack EdgeNgramField给出的结果与elasticsearch不同

1 个回答

相关Python问题