如何通过Python查询在Elasticsearch的不同字段中找到相等的值？

def getPrevList(): previous = [] previousQuery = { "size": 0, "aggs": { "topTerms": { "terms": { "field": "prev", "size": 50000 } } } } results = es.search(index="wiki", body=previousQuery)["aggregations"]["topTerms"]["buckets"] for bucket in results: previous.append({ "prev" : bucket["key"], "numDocs" : bucket["doc_count"] }) return previous prevs=getPrevList() rowNum = 0; totalNumReviews=0 for prevDetails in prevs: rowNum += 1 totalNumDocs += prevDetails["numDocs"] prevId = prevDetails["prev"] q = { "query": { "bool": { "must": [ { "term": {"prev": prevId} } ] } }, "controls": { "sample_size": 10000, "use_significance": True }, "vertices": [ { "field": "curr", "size": VERTEX_SIZE, "min_doc_count": 1 }, { "field": "prev", "size": VERTEX_SIZE, "min_doc_count": 1 } ], "connections": { "query": { "match_all": {} } } }

gq = json.dumps(q) workspaceID ="/f44c95c0-223d-11e9-b49e-bb0f8e1e7bae" # my v6.4.0 workspace workspaceUrl = "graph#/workspace/"+workspaceID+"?query=" + urllib.quote_plus(gq) doc = { "url": workspaceUrl } res = es.index(index=connectionsIndexName, doc_type='task', id=0, body=doc)

1条回答

网友

1楼 · 发布于 2024-10-03 09:07:49

编辑： 对于您的用例，您需要使用相同的prev值查找字段{}的所有值。因此，您需要按某个页面后单击的所有页面进行分组。你可以用terms aggregation来完成。您需要构建一个查询，一方面使用术语聚合返回prev字段的所有值，然后根据生成的所有curr值进行聚合：

def getOccurrencyDict():

  body = {
  "size": 0,
  "aggs": {
    "getAllThePrevs": {
      "terms": {
        "field": "prev",
        "size": 40000
      },
      "aggs": {
        "getAllTheCurr": {
          "terms": {
            "field": "curr",
            "size": 40000
          }
        }
      }
    }
  }
}
result = es.search(index="my_index", doc_type="mydoctype", body=body)

然后您必须构建一个Networkx库的class Graph()接受的数据结构。因此，您应该构建list的dict，然后将该var传递给fromdictoflist方法：

^{pr2}$

现在将其传递给networkx摄取方法：

^{3}$

我还没有测试networkx摄取，所以如果它不起作用，那是因为我们在里面传递了dict-of-list-of-dict，而不是list-of-dict，所以您应该稍微改变一下构建dict2Graphdict的方式

如果聚合查询的聚合太慢，则应使用prtition。请read here如何以弹性方式到达分区聚合

编辑：

在阅读networkX文档之后，您也可以这样做，而无需创建中间数据结构：

from elasticsearch import Elasticsearch
from elasticsearch.client.graph import GraphClient

es = Elasticsearch()
graph_client = GraphClient(es) 

def createGraphInKibana(prev):
    q = {
    "query": {
        "bool": {
            "must": [
                {
                    "term": {"prev": prev}
                }
            ]
        }
    },
    "controls": {
        "sample_size": 10000,
        "use_significance": True
    },
    "vertices": [
        {
            "field": "curr",
            "size": VERTEX_SIZE,
            "min_doc_count": 1
        },
        {
            "field": "prev",
            "size": VERTEX_SIZE,
            "min_doc_count": 1
        }
    ],
    "connections": {
        "query": {
            "match_all": {}
          }
       }
    }
    graph_client.explore(index="your_index", doc_type="your_doc_type", body=q)





G = nx.Graph()
for prev in result["aggregations"]["getAllThePrevs"]["buckets"]:
    createGraphInKibana(prev['key'])
    for curr in prev["getAllTheCurr"]["buckets"]:
        G.add_edge(prev["key"], curr["key"], weight=curr["doc_count"])

编辑：

相关问题更多 >

编程相关推荐

热门问题

热门文章