如何预处理具有太多NAN值的列？ - 问答 - Python中文网

如何预处理具有太多NAN值的列？

2024-06-28 11:22:58 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个形状为(596000, 58)的训练数据，下面的图像中有一些特征与使用train.isnull().sum()的特征/行中“NAN”的数量。在

考虑到每一个特征都具有同等的重要性并且是范畴值，我应该删除cat6和cat8列吗？至于cat6，411792/596000是nan，cat8266928/596000是nan。在

有办法应付这种情况吗？或者我必须把这两列都去掉？在

输入[12]：train.isnull().sum()

输出[12]：

Tags：数据图像数量 train 特征 nan 重要性形状

2条回答

网友

1楼 · 编辑于 2024-06-28 11:22:58

对于分类特征，几乎没有缺失价值的策略：

删除特征
对于NaN值，设置该特性的最频繁值
对于NaN值，设置新类（例如，NaN_value）
最复杂的方法-创建一个单独的模型来预测当前特性的缺失值

什么最适合？深入研究你的数据。建立一个简单的基线模型并尝试所有的方法。这应该有助于回答你的问题。在

在你的情况下，似乎是的，cat6和cat8的特性对你没有用，但是你仍然需要对这个问题进行简短的调查。在

网友

2楼 · 编辑于 2024-06-28 11:22:58

最好同时删除cat6和{}。由于您有500k个值，假设上面所有的值都是分类的，rest您可以为其他特性的restnan值生成一个new category。在

相关问题更多 >

编程相关推荐

热门问题

热门文章