如何预处理具有太多NAN值的列?

2024-06-28 11:22:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个形状为(596000, 58)的训练数据,下面的图像中有一些特征与使用train.isnull().sum()的特征/行中“NAN”的数量。在

考虑到每一个特征都具有同等的重要性并且是范畴值,我应该删除cat6和cat8列吗?至于cat6,411792/596000是nan,cat8266928/596000是nan。在

有办法应付这种情况吗?或者我必须把这两列都去掉?在


输入[12]:train.isnull().sum()

输出[12]:

enter image description here


Tags: 数据图像数量train特征nan重要性形状
2条回答

对于分类特征,几乎没有缺失价值的策略:

  • 删除特征
  • 对于NaN值,设置该特性的最频繁值
  • 对于NaN值,设置新类(例如,NaN_value
  • 最复杂的方法-创建一个单独的模型来预测当前特性的缺失值

什么最适合?深入研究你的数据。建立一个简单的基线模型并尝试所有的方法。这应该有助于回答你的问题。在

在你的情况下,似乎是的,cat6和cat8的特性对你没有用,但是你仍然需要对这个问题进行简短的调查。在

最好同时删除cat6和{}。 由于您有500k个值,假设上面所有的值都是分类的,rest您可以为其他特性的restnan值生成一个new category。在

相关问题 更多 >