一组整数元组的Memoryefficient数据结构

from pygtrie import PrefixSet from random import randint from pympler import asizeof t = PrefixSet() s = set() for i in range(100000): x = tuple(randint(0, 15) for _ in range(10)) t.add(x) s.add(x) print('|s|={} |t|={}'.format(asizeof.asizeof(s), asizeof.asizeof(t)))

1条回答

网友

1楼 · 发布于 2024-09-29 17:18:16

如果您希望优化内存使用，则必须利用数据中的模式。除非元组中的值的分布是真正随机的，否则10个位置中应该有一些位置的不同值比其他位置少。这就是树结构存储可以用来减少内存使用的方法

例如，对于100万个元组，如果元组中的第一项在所有元组中仅具有值3、5和9，则将9项后缀元组存储在3个集合的字典中应节省相当于99997个整数的空间（理论上）：

{
   3: set(of all 9-tuples that should be prefixed by 3)
   5: set(of all 9-tuples that should be prefixed by 3)
   9: set(of all 9-tuples that should be prefixed by 3) 
}

您可以基于x最小不同位置对多个级别的前缀执行此操作，直到字典的开销超过经济成本为止

{
   (3,7): set(of all 8-tuples that should be prefixed by (3,7) )
   (3,1): set(of all 8-tuples that should be prefixed by (3,1) )
   (3,4): set(of all 8-tuples that should be prefixed by (3,4) )
   (5,4): set(of all 8-tuples that should be prefixed by (5,4) )
   ...
}

当然，最不明显的项可能不是第一项，因此您可能需要一种映射来重新排列此词典中的位置

在随机生成的数据上测试这种存储优化的问题在于，项的随机性违背了分层存储的目的，并将其置于最坏情况下。即使有一些位置组合减少了不同值的数量，也必须将前缀大小计数减少比层次结构增加的开销更多的空间（我的测试表明集合在存储小整数的元组方面非常有效，因此它们很难被击败）

简言之，如果您知道您的数据有一些分布模式，可以让您选择一个好的分组级别，那么您应该能够通过将位置映射到它们的结构（并且不给它们整个元组来管理）来受益于Trie或PrefixSet。否则，很难实现任何有意义的内存节约

相关问题更多 >

编程相关推荐

热门问题

热门文章