我有两个大表,其中一个是相对较小的~800万行和一列。另一个是1.73亿行和一列。第一个数据帧的索引是IntervalIndex(例如(0,13],(13,20],(20,23],…),第二个是有序数(1,2,3,…)。两个数据帧都是这样排序的
DF1类别
(0,13]1
(13 20)2
。。。。 Df2值
15.2条
2 3.4条
3 7.8条
期望的
Df3公司
指标值类别
15.2 1
2 3.4 1
3 7.8 1
我想要两个获得inner join(更快的算法),它在data_frame2.index上返回类似于MySQL的inner join
我希望能够在集群中以一种精细的方式执行它,因为当我用更小的第二个数据集生成INNERJOIN时,结果非常消耗内存,想象一下使用map_分区的10行内存为105MB。 另一个问题是,如果第一个DaskDF=客户分散(dataframe2)后接DaskDF=客户.提交(fun1,DaskDF)我不能做像客户.提交(fun2,DaskDF)。在
您可以尝试使用较小的分区。回想一下,连接的内存使用取决于共享行的数量。根据您的数据,输出分区的内存使用量可能比输入分区的内存使用量大得多。在
相关问题 更多 >
编程相关推荐