如何将矢量变换为阵列进行频繁模式分析

add_100=udf(lambda x:x+100,returnType=FloatType()) add_1000=udf(lambda x:x+1000,returnType=FloatType()) df = df.select('cat_var_1', add_1000('cat_var_2').alias('cat_var_2_final'), add_10000('cat_var_3').alias('cat_var_3_final'))

2条回答

网友

1楼 · 编辑于 2024-09-27 07:30:13

我想，你不需要自定义项来创建独一无二的号码。或者您可以直接使用with column，例如

df = df.withColumn('cat_var_2_final',df['cat_var_2']+100).withColumn('cat_var_3_final',df['cat_var_3']+1000)

另外，如果您只对FPGrowth模型使用这些数据，我们也可以跳过向量汇编程序，直接使用udf as创建数组特性

^{pr2}$

网友

2楼 · 编辑于 2024-09-27 07:30:13

FPGrowth使用数组而不是向量。由于VectorAssembler将给您一个矢量作为输出，一个可能的简单解决方案是使用UDF将输出转换为数组。在

to_array = udf(lambda x: x.toArray(), ArrayType(DoubleType()))
df = df.withColumn('features', to_array('features'))

更好的解决方案是一次完成所有操作，即根本不使用VectorAssembler。这样做的好处是根本不需要UDF，因此速度更快。这将使用pyspark中内置的array函数。在

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章