我有一个数年的传感器(站)数据集,采用这种结构:
station Direction year month day dayOfweek hour volume
1009 3 2015 1 1 5 0 37
1009 3 2015 1 1 5 1 20
1009 3 2015 1 1 5 2 24
... . .. .. .. .. .. ..
这个数据中有很多缺口(漏值)。例如,可能会错过一个月或几天。我用0填充丢失的卷。我想根据以前的数据预测卷。我使用了LSTM,平均绝对百分比误差(MAPE)在20左右相当高,我需要减少它
我的主要问题是即使是训练我也有差距。对于这类数据,还有其他的深度学习技术吗
这里(https://machinelearningmastery.com/handle-missing-data-python/)列出了多种处理缺失值的方法
如果我有足够的数据,我将只是ommit行丢失的数据。如果我没有足够的数据和/或必须预测数据缺失的情况,我通常会尝试这两种方法,并选择精度更高的方法
和你一样。我选择了一个不包含在数据集中的不同值,比如在您的案例中的0,并填充该值。另一种方法是使用训练集的平均值或中位数。我在验证集/测试集中使用相同的值(在训练集上计算)。如果平均数在当前情况下没有意义,中位数比平均数好(2014.5年)
相关问题 更多 >
编程相关推荐