求稠密向量的最大值，将其设置为1，其余的都设置为0[pyspark]

1条回答

网友

1楼 · 发布于 2024-09-30 16:22:05

您可以创建一个udf，它接受一个向量并对其进行二值化；可以通过简单地使用列表理解检查向量中的值是否等于最大值来构造二进制化器：

from pyspark.ml.linalg import Vectors, VectorUDT
import pyspark.sql.functions as F

def max_binarizer(vector):
    max_val = max(vector)                              # maximum value in the vector
    return Vectors.dense([1 if x == max_val else 0 for x in vector])    # binarize it

# create a udf for the binarizer
max_bin_udf = F.udf(max_binarizer, VectorUDT())

df.withColumn("vector", max_bin_udf(df["vector"])).show()
+   +      -+
|  Col1|       vector|
+   +      -+
|Modali|[0.0,0.0,1.0]|
|assert|[0.0,1.0,0.0]|
+   +      -+

编程相关推荐

JavaAkka参与者工具包上下文。ActorofVS系统。阿克特罗夫
java快速查看是否未选中所有复选框的方法
使用JLabel添加图片时遇到的java问题
java如何在SpringRestTemplate中自定义自动封送以生成/修改XML头（编码，DOCTYPE）
java Exchange Web服务（EWS）使用令牌凭据进行单点登录？
java无法从@Transaction中具有关系的两个表中删除
多线程处理我的代码只有在通过java完成处理后才能继续
java FileNotFoundException:[excel在本地计算机上的位置]文件名、目录名或卷标语法不正确
java JPanel不会显示在另一个JPanel之上
从Eclipse构建器运行Java程序

相关问题更多 >

编程相关推荐

热门问题

热门文章

求稠密向量的最大值，将其设置为1，其余的都设置为0[pyspark]

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >