具有nullables值的每个组的java Apache Spark计数记录
当我试图计算我看到的每个组的记录数时,那个带null的组并没有记录,但这是不正确的
输入数据帧:
+--------+
| Name|
+--------+
| Andrei|
| Andrei|
| null|
| null|
|Grigorii|
+--------+
代码:
Dataset<Row> df = inputDf.groupBy("Name")
.agg(functions.count("Name").as("Name_count"));
实际数据帧:
+--------+----------+
| Name|Name_count|
+--------+----------+
| null| 0|
| Andrei| 2|
|Grigorii| 1|
+--------+----------+
预期数据帧:
+--------+----------+
| Name|Name_count|
+--------+----------+
| null| 2|
| Andrei| 2|
|Grigorii| 1|
+--------+----------+
# 1 楼答案
这项工作: