实际上,我正在处理一个大型数据集(87,56685),其中包括USERID
、MOVIEID
和RATING
我需要对评级使用抽样方法来减少数据集的大小,我仅限于使用抽样策略
我试过这种方法
DataFrame = DataFrame.sampleBy("Rating", fractions={1:0.2, 2: 0.2, 3: 0.2, 4: 0.2, 5: 0.2}, seed=0)
DataFrame.show()
我的rmse值大于3
有人能帮助我在大数据集上的采样方法吗
用一些示例代码
Tags:
目前没有回答
相关问题 更多 >
编程相关推荐