查找具有空值的列，并将它们写入Pyspark中每个记录的新列中

+---------+---+------------+-----------+------+-------+ |firstName|age|jobStartDate|isGraduated|gender| salary| +---------+---+------------+-----------+------+-------+ | null|se3| 2006-01-01| 8| M| F| | null| a3| null| True| F| null| | Robert| 37| 1992-01-01| null| M|5000.50| +---------+---+------------+-----------+------+-------+

+---------+---+------------+-----------+------+-------+----------------------+ |firstName|age|jobStartDate|isGraduated|gender| salary| Missing Columns| +---------+---+------------+-----------+------+-------+----------------------+ | null|se3| 2006-01-01| 8| M| F| firstName| | null| a3| 2006-01-02| True| F| null| firstName,salary| | Robert| 37| 1992-01-01| null| M|5000.50| isGraduated| +---------+---+------------+-----------+------+-------+----------------------+

1条回答

网友

1楼 · 发布于 2024-10-04 11:35:37

您可以通过三个步骤完成此操作

步骤1：创建一个大小为多少列的数组。如果条目为null，则将数组中的相应元素设置为列名的名称，否则将值保留为null

步骤2：筛选数组中的列名

步骤3：连接到以逗号分隔的列表

df //step 1
    .withColumn("MissingColumns",
      array(
        when(col("firstName").isNull(),lit("firstName")),
        when(col("age").isNull(),lit("age")),
        when(col("jobStartDate").isNull(),lit("jobStartDate")),
        when(col("isGraduated").isNull(),lit("isGraduated")),
        when(col("gender").isNull(),lit("gender")),
        when(col("salary").isNull(),lit("salary"))
      )
    )
     //step 2
      .withColumn("MissingColumns",expr("filter(MissingColumns, c -> c IS NOT NULL)"))
     //step 3
      .withColumn("MissingColumns",concat_ws(",",col("MissingColumns")) )

相关问题更多 >

编程相关推荐

热门问题

热门文章