有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

具有nullables值的每个组的java Apache Spark计数记录

当我试图计算我看到的每个组的记录数时,那个带null的组并没有记录,但这是不正确的

输入数据帧:

+--------+
|    Name|
+--------+
|  Andrei|
|  Andrei|
|    null|
|    null|
|Grigorii|
+--------+

代码:

Dataset<Row> df = inputDf.groupBy("Name")
            .agg(functions.count("Name").as("Name_count"));

实际数据帧:

+--------+----------+
|    Name|Name_count|
+--------+----------+
|    null|         0|
|  Andrei|         2|
|Grigorii|         1|
+--------+----------+

预期数据帧:

+--------+----------+
|    Name|Name_count|
+--------+----------+
|    null|         2|
|  Andrei|         2|
|Grigorii|         1|
+--------+----------+

共 (1) 个答案

  1. # 1 楼答案

    这项工作:

    Dataset<Row> storageFrame = leftDataset.groupBy("Name")
                .agg(functions.count("*").as("Name_count"));