导航简单,但大的数据集

2024-09-26 18:14:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我得到了大约12GB的标签分隔数据,格式非常简单:

mainIdentifier, altIdentifierType, altIdentifierText

MainIdentifier不是唯一的行标识符-只有3列的整个组合是唯一的。我的主要用例是查找来自mainIdentifier或来自两种不同类型的可选标识符的相应条目

根据我所能收集到的信息,我需要为每个条目方向构造一个查找索引,以使其快速。但是,考虑到任务的简单性,我并不真正需要指向记录的索引—索引本身就是答案

我在python中尝试过sqlite3,但正如预期的那样,结果没有我希望的那么快。我现在正在考虑只存储两个列表并以二进制搜索的方式移动,然而,我不想重新发明轮子-有没有任何现有的解决方案如何解决这个问题

另外,我打算使用支持REST的服务来运行该服务,因此以任何方式将查找表存储在内存中都是不可行的


Tags: 数据信息类型格式方式条目标签标识符

热门问题