我正在尝试创建一个分类模型。同时对数据进行预处理。我查看每列中的差异。这是每列中的差异量。在建模之前,我不知道应该记录哪些列的转换。多少差异是可以接受的?有人能解释一下吗
Temparature 2.318567e-01
HR 4.747868e+02
SpO2 1.179291e+01
SBP 6.263887e+02
MAP 2.905884e+02
RR 2.794205e+01
FiO2 9.061920e+00
PaO2 1.327011e+03
PaCO2 7.466527e+01
pH 4.851681e-03
A.a.gradient 0.000000e+00
HCO3 1.358290e+01
Hb 5.337076e+00
TLC 6.326940e+07
Platelets 1.062145e+10
K 3.332203e-01
Na 4.429681e+01
Serum.Cr 1.897277e+00
Blood.Urea 7.321509e+02
Bili 3.352918e+00
Urine.output 5.157271e+05
Lactate 3.795719e+00
INR 5.362644e-01
dtype: float64
我认为这取决于你对数据的先验知识。除非有上下文,否则没有“可接受的差异范围”
出于分类目的,最好尽可能多地训练样本,但您确实希望留下一些样本供@desertnaut建议的验证。 buttom行:我将取上面(比如)80%的大多数变量列,并对它们进行日志转换。其余20%将留作验证
我想说的是,只查看列的方差对于删除方差为0的列最有用
如果您的列至少有最小的方差,那么在没有进一步调查的情况下,您无法得出该列是无用的结论
相关问题 更多 >
编程相关推荐