如何在pyspark中对一组列进行bucketing？

2024-09-29 17:17:36 发布

您现在位置：Python中文网/ 问答频道 /正文

7850

网友

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试将包含单词“road”的列放入5k数据集中。并创建一个新的数据帧。在

我不知道如何做到这一点，以下是我所做的努力：

from pyspark.ml.feature import Bucketizer

spike_cols = [col for col in df.columns if "road" in col]

for x in spike_cols :

    bucketizer = Bucketizer(splits=[-float("inf"), 10, 100, float("inf")],
                        inputCol=x, outputCol=x + "bucket")

bucketedData = bucketizer.transform(df)

Tags：数据 in from df for col float 单词

1条回答

网友

1楼 · 发布于 2024-09-29 17:17:36

在循环中修改df：

from pyspark.ml.feature import Bucketizer

for x in spike_cols :
    bucketizer = Bucketizer(splits=[-float("inf"), 10, 100, float("inf")],
                    inputCol=x, outputCol=x + "bucket")
    df = bucketizer.transform(df)

{或使用^：

^{pr2}$

如何在pyspark中对一组列进行bucketing？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在pyspark中对一组列进行bucketing？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >