我正在尝试将包含单词“road”的列放入5k数据集中。并创建一个新的数据帧。在
我不知道如何做到这一点,以下是我所做的努力:
from pyspark.ml.feature import Bucketizer
spike_cols = [col for col in df.columns if "road" in col]
for x in spike_cols :
bucketizer = Bucketizer(splits=[-float("inf"), 10, 100, float("inf")],
inputCol=x, outputCol=x + "bucket")
bucketedData = bucketizer.transform(df)
在循环中修改
df
:{或使用^:
^{pr2}$相关问题 更多 >
编程相关推荐