将列中的不同值用于并行Pyspark数据帧以随机选择值

| firstName | lastName | |-----------|----------| | Bill | Apple | | Mike | Apple | | Jeff | Apple | | Paul | Apple | | George | Bowers | | Kevin | Bowers | | Leon | Bowers | | Fred | Bowers |

1条回答

网友

1楼 · 发布于 2024-09-30 14:32:52

你可以用一些analytic functions魔法来做到这一点✨

from pyspark.sql import functions as F, Window

df.withColumn(
    "r", F.row_number().over(Window.partitionBy("lastName").orderBy(F.rand()))
).where(F.col("r") <= 2).drop("r").show()
+    -+    +
|firstName|lastName|
+    -+    +
|   Paul  |  Apple |
|   Bill  |  Apple |
|   Kevin |  Bowers|
|   Leon  |  Bowers|
+    -+    +

例如，如果我重新运行它：

+    -+    +
|firstName|lastName|
+    -+    +
|   Paul  |  Apple |
|   Mike  |  Apple |
|   Fred  |  Bowers|
|   Kevin |  Bowers|
+    -+    +

编程相关推荐

用Java打印布尔数组
java rich:datascroller不使用Internet Explorer上的rich:datatable
java以编程方式将vector drawable/SVG绘制到屏幕上
javacom。fasterxml。杰克逊。数据绑定。exc.InvalidDefinitionException:没有为ObjectReader配置值类型
java无法在Spring Boot中加载静态文件
java“未能延迟初始化角色集合”异常即使在我使用OSIV模式时也会发生
java Glass Fish 3连接拒绝Netbeans IDE 8
java警告：在类型“onLifeCycleeEvent”中找不到注释方法“value（）”：安卓类文件。拱生命周期。未找到OnliFecCycleeEvent
java Android用户界面停止响应
java从字符串末尾获取整数（可变长度）

相关问题更多 >

编程相关推荐

热门问题

热门文章

将列中的不同值用于并行Pyspark数据帧以随机选择值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >