如何在PySpark Dataframe中对两列进行分层采样?

2024-09-29 19:22:07 发布

您现在位置:Python中文网/ 问答频道 /正文

我想根据ID和它们所属的通信类型对以下数据集进行采样;同一个ID可以有多个comm_类型,数据集非常庞大,因此我想对100万个唯一ID的较小样本进行进一步分析; 我看到有一个sampleBy(col,fracts,seed=None)方法来执行此操作,但我需要按comm_类型对数据进行分组,然后按id进行采样,我正在努力找出最好的方法。数据集中还有其他字段,但采样需要在这两列上进行

comm_类型的分数应与DF中的原始数据匹配, E=0.5,M=0.4,P=0.1,原始DF中的唯一ID约为19 M,我只需要对数据集的1 M进行采样,以保持comm_类型分数与原始数据集一致

enter image description here

将感谢任何帮助或指导


Tags: 数据方法noneid类型df原始数据col

热门问题