如何在PySpark中对大型数据集使用采样方法?

2024-09-29 19:28:43 发布

您现在位置:Python中文网/ 问答频道 /正文

实际上,我正在处理一个大型数据集(87,56685),其中包括USERIDMOVIEIDRATING 我需要对评级使用抽样方法来减少数据集的大小,我仅限于使用抽样策略

我试过这种方法

DataFrame = DataFrame.sampleBy("Rating", fractions={1:0.2, 2: 0.2, 3: 0.2, 4: 0.2, 5: 0.2}, seed=0)
DataFrame.show()

我的rmse值大于3

有人能帮助我在大数据集上的采样方法吗

用一些示例代码


Tags: 数据方法示例dataframeshow策略seed集上

热门问题