在pysp中分组时，对另一列上满足额外条件的元素进行计数

|URL_short |NumOfReqs| +-----------------------------------------------------------------------------------------+---------+ |http1 | 500 | |http4 | 500 | |http2 | 500 | |http3 | 500 |

1条回答

网友

1楼 · 发布于 2024-10-03 06:31:18

一种方法是添加另一个聚合表达式（也将count转换为agg表达式）：

import pyspark.sql.functions as f

dataFrame.groupBy("URL_short").agg(
  f.count('*').alias('NumOfReqs'), 
  f.sum(f.when(f.col('success'), 1).otherwise(0)).alias('CountOfSuccess')
).show()

注意，这假设您的success列是布尔类型，如果它是字符串，请将表达式更改为f.sum(f.when(f.col('success') == 'true', 1).otherwise(0)).alias('CountOfSuccess')

编程相关推荐

java中的标签是用来制作意大利面代码的吗？
如何经营一家公司。压缩后eclipse中的java文件？
Java将双精度四舍五入将截断零
java使用定制的standalonefull。带arquillian的xml
java如何从hbase列读取日期、时间和时间戳
java在返回规范<SomeEntity>（spring，jpa）中仅包含具有true boolean字段的实体
java Ui strucking Firebase Firestore删除数据？
遇到Java数组索引错误
java使用Stanford语法分析器获得句子的K最佳语法分析
TLSPackage后的java神秘字节

相关问题更多 >

编程相关推荐

热门问题

热门文章

在pysp中分组时，对另一列上满足额外条件的元素进行计数

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >