加快Python MongoDB查询

2024-10-03 04:29:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我是MongoDB新手。我试图从几个集合中读取数据。我想对GHTorrent做一些统计,所以我试图用我感兴趣的数据打印一个.csv。问题是,我的查询已经运行了30分钟左右,而且我确信我的搜索效果不如预期,我只是不知道如何改进它。在

首先,我知道

closed_issues = ghdb.issues.find(
    { "state": "closed" }, # query criteria
    { #projection
    "id": 1,
    "created_at": 1,
    "closed_at": 1,
    "comments": 1,
    "repo": 1,
    "owner": 1,
    "number": 1,
    }

然后,在打开一个文件并写下标题之后,我会这样做

^{pr2}$

如您所见,我使用四个相同标准中的三个来处理每个问题的三个不同的结果。搜索issue_idrepo和{}的组合并对三个不同的{}进行计数,最有效的方法是什么?在


Tags: csv数据idmongodbrepo读取数据感兴趣at
1条回答
网友
1楼 · 发布于 2024-10-03 04:29:17

mongodb聚合框架是一个很好的工具,用于生成诸如counts-http://docs.mongodb.org/manual/core/aggregation/之类的聚合统计信息的查询

我会从那里开始,玩一玩。对于这种用例,您通常可以从那里开始,然后在结果周围包装一些额外的代码,以您需要的格式导出数据。在

相关问题 更多 >