如何在pyspark.bucketiz公司我试图在pyspark中使用bucketizer时得到splits值。 当前结果包含bucket的索引: data = [(0, -1.0), (1, 0.0), (2, 0.5), (3, 1.0) ...2024-06-28 已阅读: n次
pysp中的Bucketing和一个热编码我有一个PySpark数据帧,由以下列组成: id Age 1 30 2 25 3 21 我有以下年龄段:[20, 24, 27, 30 ...2024-06-28 已阅读: n次
在带条件的列上应用使用列作为输入的函数假设我有两组:“1”和“2”。你知道吗 ls = [ ['1', 2], ['2', 7], ['1', 3], ['2',-6], ['1', 3], ...2024-06-28 已阅读: n次
如何在pyspark中对一组列进行bucketing?我正在尝试将包含单词“road”的列放入5k数据集中。并创建一个新的数据帧。在 我不知道如何做到这一点,以下是我所做的努力: from pyspark.ml.feature import Bucket ...2024-06-28 已阅读: n次