大数据透视表(2.5m vs 2m)

2024-09-28 16:19:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个具有以下架构的表: 用户ID |位置ID |权重

基本问题是我需要创建一个数据透视表,这样我就有userid作为行,而locationid作为列以及矩阵中的权重。这在Excel和python中很容易实现,但问题的主要部分是我的数据非常大,大约有250万用户和200万个位置。这在Excel中是不可能的,而且我没有足够的RAM来通过python执行它。在

请告诉我做这件事最好的方法是什么。在

可能有一个表(数百万行)如下所示:

Table1

他需要的输出是:(数百万行和列)

Table2


Tags: 数据方法用户id架构矩阵excelram
1条回答
网友
1楼 · 发布于 2024-09-28 16:19:31

你想怎么处理这个结果?您知道生成的pivot需要一些太字节来存储吗?我不容易控制。在

可以按userid和locationid对数据进行排序,并将数据视为稀疏矩阵。在

相关问题 更多 >