python内存使用dict和变量大数据

1条回答

网友

1楼 · 发布于 2024-09-28 20:52:19

您可以使用sys.getsizeof(object)来获取Python对象的大小。但是，在对容器调用sys.getsizeof时必须小心：它只给出容器的大小，而不是内容有关如何获得容器的总大小（包括内容）的说明，请参见this方法。在这种情况下，我们不需要太深入：我们只需手动合计容器的大小及其内容的大小。在

相关类型的尺寸为：

# room type size
>>> sys.getsizeof(RoomType("A",["Bottom"])) + sys.getsizeof("A") + sys.getsizeof(["Bottom"]) + sys.getsizeof("Bottom")
233

# position size
>>> sys.getsizeof((0,0)) +  2*sys.getsizeof(0)
120

# One character size
>>> sys.getsizeof("A")
38

让我们看看不同的选项，假设您有N个房间：

来自position -> room_type的字典。这涉及到在内存中保留N*(size(position) + size(room_type)) = 353 N个字节。在
来自position -> 1-character string的字典。这涉及到在内存中保留N*158个字节。在
来自type -> set of positions的字典。这涉及到保留N*120字节以及存储字典键的微小开销。在

在内存使用方面，第三种选择显然更好。然而，与通常情况一样，您需要权衡CPU内存。值得简要考虑一下您可能要执行的查询的计算复杂性。要找到给定位置的房间类型，请执行以下三个选择：

在字典里查这个位置。这是一个O（1）查找，因此您将始终具有相同的运行时间（大约），与房间的数量无关（对于大量的房间）。在
相同
看看每一种类型，并询问每种类型的位置是否在该类型的位置集中。这是一个O(ntypes)查找，也就是说，它所花费的时间与您拥有的类型数量成正比。请注意，如果您使用list而不是set来存储给定类型的房间，那么这将增长到O(nrooms * ntypes)，这将影响您的性能。在

与往常一样，在优化时，重要的是要考虑优化对内存使用和CPU时间的影响。两人经常意见不合。在

另一种选择是，如果您的映射足够矩形，那么可以考虑将类型保存在二维numpy字符数组中。我相信这样会更有效率。numpy数组中的每个字符都是一个字节，因此内存使用量将大大减少，而且CPU时间仍然是O（1）从房间位置到类型的查找：

^{pr2}$

一些额外的小规模优化：

将房间类型编码为int而不是字符串。int的大小为24字节，而一个字符串的大小为38。在

将位置编码为单个整数，而不是元组。例如：

# Random position
xpos = 5
ypos = 92

# Encode the position as a single int, using high-order bits for x and low-order bits for y
pos = 5*1000 + ypos

# Recover the x and y values of the position.     
xpos = pos / 1000
ypos = pos % 1000

请注意，这会降低可读性，因此只有当您想压缩性能的最后一部分时才值得这样做。实际上，您可能希望使用2的幂次而不是10的幂作为分隔符（但是10的幂有助于调试和可读性）。请注意，这会使每个位置的字节数从120到24。如果您真的这样做，请考虑使用__slots__定义一个Position类来告诉Python如何分配内存，并向类添加xpos和{}属性。您不希望在代码中使用pos / 1000和pos % 1000语句。在

相关问题更多 >

编程相关推荐

热门问题

热门文章