向量列到doubleTyp的Pyspark转换

1条回答

网友

1楼 · 发布于 2024-09-24 00:32:08

您只需要确保lambda函数返回与UDF的返回类型匹配的对象。在这种情况下，需要将对象转换为float类型

代码：

from pyspark.ml.linalg import Vectors
from pyspark.sql.functions import udf
from pyspark.sql.types import DoubleType

ex = spark.createDataFrame([[1.3],
                            [1.2],
                            [3.4]
                           ], ["test"])

from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=["test"],outputCol="testcol")
ex = assembler.transform(ex)
ex.show(5)

# UDF for converting column type from vector to double type
unlist = udf(lambda x: float(list(x)[0]), DoubleType())

ex = ex.withColumn("testcol_new", unlist("testcol"))
ex.show(5)

输出：

编程相关推荐

decimal Java BigDecimal除法并获取N位数字
以不同的时间间隔重新启动Java计时器
java JFreeChart空指针问题
java Maven:通过cmd使用Install命令获取编译错误
计算CSV文件中行数的java内置方法？
在WorldWind Java/JOGL中使用自定义着色器
JavaSpringMVC安全性甚至在第一步都不起作用
java面板无法打开？
java抓住可丢弃的东西是一种不好的做法吗？
java如何安排JComboBox项

相关问题更多 >

编程相关推荐

热门问题

热门文章

向量列到doubleTyp的Pyspark转换

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >