PySpark:Groupby标识列并对两个不同的列求和以创建新的2x2选项卡

2条回答

网友

1楼 · 编辑于 2024-09-26 17:56:10

使用sum和groupBy方法：

>>> df.groupBy().sum().select(col("sum(previous)").alias("previous_total"), col("sum(current)").alias("current_total")).show()
+       +       +
|previous_total|current_total)|
+       +       +
|             3|             4|
+       +       +

此外，您可以将数据帧注册为临时表，并使用Spark SQL查询它，这将得到相同的结果：

>>> df.registerTempTable("df")
>>> spark.sql("select sum(previous) as previous_total, sum(current) as current_total from df").show()

网友

2楼 · 编辑于 2024-09-26 17:56:10

您可以使用和sum：

from pyspark.sql.functions import sum

df_result = df.select(sum("previous").alias("previous_total"),
                      sum("current").alias("current_total"))

df_result.show()

+       +       +
|previous_total|current_total)|
+       +       +
|             3|             4|
+       +       +

编程相关推荐

java如何拆分字符串（基于各种分隔符），但不保留空格？
解析。Json格式的txt文件和knime中的java
java Spring rest api为什么在rest api调用的响应中更改了数据类型
升华文本3抛出java。lang.ClassNotFoundException，而记事本++不存在
java Android指纹扫描仪在尝试5次后停止工作？
java Android如何设置精确的重复报警？
java如何使用HTTPGET connect为access API输入用户名和密码
java当测试报告显示没有测试失败时，Gradle为什么说“有失败的测试”？
用Gson实现java获取响应
MapReduce程序中函数错误的java不可映射参数

相关问题更多 >

编程相关推荐

热门问题

热门文章

PySpark:Groupby标识列并对两个不同的列求和以创建新的2x2选项卡

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >