利用das实现大Pandas数据帧的innerjoin

2024-09-27 07:27:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我有两个大表,其中一个是相对较小的~800万行和一列。另一个是1.73亿行和一列。第一个数据帧的索引是IntervalIndex(例如(0,13],(13,20],(20,23],…),第二个是有序数(1,2,3,…)。两个数据帧都是这样排序的

DF1类别

(0,13]1

(13 20)2

。。。。 Df2值

15.2条

2 3.4条

3 7.8条

期望的

Df3公司

指标值类别

15.2 1

2 3.4 1

3 7.8 1

我想要两个获得inner join(更快的算法),它在data_frame2.index上返回类似于MySQL的inner join

我希望能够在集群中以一种精细的方式执行它,因为当我用更小的第二个数据集生成INNERJOIN时,结果非常消耗内存,想象一下使用map_分区的10行内存为105MB。 另一个问题是,如果第一个DaskDF=客户分散(dataframe2)后接DaskDF=客户.提交(fun1,DaskDF)我不能做像客户.提交(fun2,DaskDF)。在


Tags: 数据内存客户排序公司类别innerdf1

热门问题