如何在Spark SQL中为每个组创建zscore

dSc TranAmount 1: 100021 79.64 2: 100021 79.64 3: 100021 0.16 4: 100022 11.65 5: 100022 0.36 6: 100022 0.47 7: 100025 0.17 8: 100037 0.27 9: 100056 0.27 10: 100063 0.13 11: 100079 0.13 12: 100091 0.15 13: 100101 0.22 14: 100108 0.14 15: 100109 0.04

1条回答

网友

1楼 · 发布于 2024-10-01 02:25:29

例如，您可以使用原始数据计算统计信息和join：

stats = (df.groupBy("dsc")
  .agg(
      func.stddev_pop("TranAmount").alias("sd"), 
      func.avg("TranAmount").alias("avg")))

df.join(broadcast(stats), ["dsc"])

(df
    .join(func.broadcast(stats), ["dsc"])
    .select("dsc", "TranAmount", (df.TranAmount - stats.avg) / stats.sd))

或使用窗口函数with standard deviation formula：

^{pr2}$

编程相关推荐

java在LWJGL窗口中使用Slick2D呈现文本？
java Spring和hibernate集成无法打开JPA
java不提供引擎密钥。createKey（种类，id）是否总是返回相同的结果？
如果字符串包含语句，则为Java或运算符
在Windows 2008 R2德语区域设置中，unicode附加的java代码无法在输出中正确打印德语字符
java Maven依赖项排除未按预期工作
用Java实现类的接口
在Emacs中进行Java开发的最佳方法是什么？
为什么我的Java Simple Elasticsearch停留在doSample方法上？
来自持久性的javajar文件。在eclipse中找不到xml

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在Spark SQL中为每个组创建zscore

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >