PiSpark中的LeftAnti连接太慢

2024-09-30 04:33:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我想在pyspark上做些手术。实际上,我有一个大数据框(9000万行,23列)和另一个数据框(30k行,1列)。 我必须从第一个数据帧中删除某个列的值与第二个数据帧的任何值匹配的所有实例

firstdf = firstdf.join(seconddf, on = ["Field"], how = "leftanti")

问题是这个操作非常慢(在databricks上大约13分钟)。是否有任何方法可以改进此操作的性能


Tags: 数据实例方法fieldon性能pysparkhow

热门问题