pyspark如何在分层随机抽样中使用（df.sampleByKey（））选择每个层的确切记录数

#Exact number of records needed per status N=5 #function calculates fraction def fraction_calc(count_dict,N) d_mod={} for i in d: d_mod[i]=(N/d[i]) return d_mod #creating dictionary of fractions using above function fraction=fraction_calc(d,5) print(fraction)

{'PENDING_PAYMENT': 0.00033266799733865603, 'COMPLETE': 0.000218350146294598, 'ON_HOLD': 0.0013164823591363876, 'PAYMENT_REVIEW': 0.006858710562414266, 'PROCESSING': 0.0006042296072507553, 'CLOSED': 0.0006617257808364214, 'SUSPECTED_FRAUD': 0.003209242618741977, 'PENDING': 0.000657030223390276, 'CANCELED': 0.0035014005602240898}

#Checking count per status of resultant sample dataframe df_sample.groupBy("status").count().show() +---------------+-----+ | status|count| +---------------+-----+ |PENDING_PAYMENT| 3| | COMPLETE| 6| | ON_HOLD| 7| | PAYMENT_REVIEW| 4| | PROCESSING| 6| | CLOSED| 6| |SUSPECTED_FRAUD| 7| | PENDING| 9| | CANCELED| 5| +---------------+-----+

1条回答

网友
1楼 · 发布于 2024-09-29 19:22:52

找到一份工作
from pyspark.sql.window import Window from pyspark.sql.functions import rand,row_number
一,。使用rand（）内置函数生成随机数的“key”列，然后按“key”顺序为“order_status”列上创建的分区窗口的每个元素分配一个行号。代码如下
df_sample=df.withColumn("key",rand()).\ withColumn("rnk", row_number().\ over(Window.partitionBy("status").\ orderBy("key"))).\ where("rnk<=5").drop("key","rnk")
二,。现在，我得到了每个状态的5条随机记录。此输出将在每次spark会话中更改
#Checking count per status of resultant sample dataframe df_sample.groupBy("status").count().show() + -+ -+ | status |count| + -+ -+ |PENDING_PAYMENT| 5| | COMPLETE| 5| | ON_HOLD| 5| | PAYMENT_REVIEW| 5| | PROCESSING| 5| | CLOSED| 5| |SUSPECTED_FRAUD| 5| | PENDING| 5| | CANCELED| 5| + -+ -+

相关问题更多 >

编程相关推荐

热门问题

热门文章