2024-09-30 04:33:03 发布
网友
我想在pyspark上做些手术。实际上,我有一个大数据框(9000万行,23列)和另一个数据框(30k行,1列)。 我必须从第一个数据帧中删除某个列的值与第二个数据帧的任何值匹配的所有实例
firstdf = firstdf.join(seconddf, on = ["Field"], how = "leftanti")
问题是这个操作非常慢(在databricks上大约13分钟)。是否有任何方法可以改进此操作的性能
目前没有回答
目前没有回答
相关问题 更多 >
编程相关推荐