OneHotEncoding:在一个数据帧中工作,而不是在非常非常相似的数据帧中工作(pyspark)

2024-05-05 18:25:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我将OneHotEncoding函数应用于两个非常相似的数据帧。第一个数据帧如下所示: enter image description here

当我应用一个热编码时,一切正常: enter image description here

但是,当我将完全相同的函数应用于这个不同但非常相似的数据帧时: enter image description here

出现以下错误:

enter image description here

我不明白为什么会发生这种情况,因为数据帧1和2都是从以前的数据帧中提取的(它们作为机器学习应用程序的训练和测试df)。两者都是pyspark.sql数据帧。有人能帮我吗


1条回答
网友
1楼 · 发布于 2024-05-05 18:25:48

正如错误所说,不能对包含None和整数的列表进行排序。您的列中可能有一个null,这会导致行categories.sort()崩溃

如果您想使用Spark实现ML,我建议使用pyspark.ML包,而不是编写自己的热编码器。例如,请参见here

相关问题 更多 >