利用das实现大Pandas数据帧的innerjoin

2024-09-27 07:27:53 发布

男 | 程序猿一只，喜欢编程写python代码。

我有两个大表，其中一个是相对较小的~800万行和一列。另一个是1.73亿行和一列。第一个数据帧的索引是IntervalIndex（例如（0,13]，（13,20]，（20,23]，…），第二个是有序数（1,2,3，…）。两个数据帧都是这样排序的

DF1类别

（0,13]1

（13 20）2

。。。。 Df2值

15.2条

2 3.4条

3 7.8条

期望的

Df3公司

指标值类别

15.2 1

2 3.4 1

3 7.8 1

我想要两个获得inner join（更快的算法），它在data_frame2.index上返回类似于MySQL的inner join

我希望能够在集群中以一种精细的方式执行它，因为当我用更小的第二个数据集生成INNERJOIN时，结果非常消耗内存，想象一下使用map_分区的10行内存为105MB。另一个问题是，如果第一个DaskDF=客户分散（dataframe2）后接DaskDF=客户.提交（fun1，DaskDF）我不能做像客户.提交（fun2，DaskDF）。在

Tags：数据内存客户排序公司类别 inner df1

1条回答

网友

1楼 · 发布于 2024-09-27 07:27:53

您可以尝试使用较小的分区。回想一下，连接的内存使用取决于共享行的数量。根据您的数据，输出分区的内存使用量可能比输入分区的内存使用量大得多。在

利用das实现大Pandas数据帧的innerjoin

相关问题更多 >

编程相关推荐

热门问题

热门文章

利用das实现大Pandas数据帧的innerjoin

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >