如何在PySpark Dataframe中对两列进行分层采样？

2024-09-29 19:22:07 发布

男 | 程序猿一只，喜欢编程写python代码。

我想根据ID和它们所属的通信类型对以下数据集进行采样；同一个ID可以有多个comm_类型，数据集非常庞大，因此我想对100万个唯一ID的较小样本进行进一步分析；我看到有一个sampleBy（col，fracts，seed=None）方法来执行此操作，但我需要按comm_类型对数据进行分组，然后按id进行采样，我正在努力找出最好的方法。数据集中还有其他字段，但采样需要在这两列上进行

comm_类型的分数应与DF中的原始数据匹配， E=0.5，M=0.4，P=0.1，原始DF中的唯一ID约为19 M，我只需要对数据集的1 M进行采样，以保持comm_类型分数与原始数据集一致

将感谢任何帮助或指导

Tags：数据方法 none id 类型 df 原始数据 col

0条回答

目前没有回答

如何在PySpark Dataframe中对两列进行分层采样？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在PySpark Dataframe中对两列进行分层采样？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >