2024-06-28 11:22:58 发布
网友
我有一个形状为(596000, 58)的训练数据,下面的图像中有一些特征与使用train.isnull().sum()的特征/行中“NAN”的数量。在
(596000, 58)
train.isnull().sum()
考虑到每一个特征都具有同等的重要性并且是范畴值,我应该删除cat6和cat8列吗?至于cat6,411792/596000是nan,cat8266928/596000是nan。在
cat6
cat8
有办法应付这种情况吗?或者我必须把这两列都去掉?在
输入[12]:train.isnull().sum()
输出[12]:
对于分类特征,几乎没有缺失价值的策略:
什么最适合?深入研究你的数据。建立一个简单的基线模型并尝试所有的方法。这应该有助于回答你的问题。在
在你的情况下,似乎是的,cat6和cat8的特性对你没有用,但是你仍然需要对这个问题进行简短的调查。在
最好同时删除cat6和{}。 由于您有500k个值,假设上面所有的值都是分类的,rest您可以为其他特性的restnan值生成一个new category。在
new category
对于分类特征,几乎没有缺失价值的策略:
什么最适合?深入研究你的数据。建立一个简单的基线模型并尝试所有的方法。这应该有助于回答你的问题。在
在你的情况下,似乎是的,cat6和cat8的特性对你没有用,但是你仍然需要对这个问题进行简短的调查。在
最好同时删除}。
由于您有500k个值,假设上面所有的值都是分类的,rest您可以为其他特性的restnan值生成一个
cat6
和{new category
。在相关问题 更多 >
编程相关推荐