使用Python实时访问简单但庞大的数据集

网友

1楼 · 编辑于 2024-10-04 05:29:21

结果表明，定义主键可以将单个查询的速度提高一个数量级。在

对于一个包含400000个随机创建的条目（10/20个字符长）的测试表，单个查询所用时间不超过5ms，满足要求。在

该表现在创建如下：

CREATE TABLE WordMappings (key text PRIMARY KEY, word text)

使用主键是因为

其他用户建议使用索引，但是，索引不一定是唯一的，而且根据the accept answer to this question，它们不必要地降低更新/插入/删除性能。然而，使用索引也可以提高性能。然而，这一点没有经过原作者的检验，虽然没有经过原作者的检验。在

网友

2楼 · 编辑于 2024-10-04 05:29:21

通过为key列创建索引，可以加快对该列的查找：

CREATE INDEX kex_index ON WordMappings(key);

要检查查询是使用索引还是扫描整个表，请使用EXPLAIN QUERY PLAN。在

网友

3楼 · 编辑于 2024-10-04 05:29:21

很久以前，我尝试使用SQLite来处理顺序数据，但它不够快，不能满足我的需要。当时，我正在将它与一个现有的内部二进制格式进行比较，最后我使用了这种格式。在

我没有亲自使用过，但是一个朋友使用PyTables来处理大量的时间序列数据；也许值得研究一下。在