我有我的大学项目,我得到了一个dataset
,几乎所有的特征都与目标有很弱的相关性(只有一个特征与目标有中度相关性)。它的分布也不正常。我已经尝试应用简单的线性回归模型,它导致了underfitting
,然后我应用了simple random forest regressor
,但它导致了overfitting
,但是当我应用random forest regressor
和randomsearchcv
优化时,它花费了很长时间。有没有什么方法可以让不太好的dataset
得到合适的模型,而不需要欠拟合或过拟合?还是根本不可能
Tags:
嗯,坦率地说,如果你能在不欠拟合或过拟合的情况下拟合一个模型,你就会完全解决人工智能问题
但也有一些建议:
随机林上的过度拟合
就我个人而言,我会尝试破解这条路线,因为你提到你的数据没有强相关性。通常,修复过盈比修复欠盈更容易,因此也会有所帮助
尝试查看您的树输出。如果您正在使用
python
,sci-kit learn
的export_graphviz
可能会有所帮助尽量减少树木的最大深度
尝试增加一棵树拆分所需的最大样本数(或类似地,一片叶子应具有的最小样本数)
尝试增加RF中的树数
线性回归的欠拟合
添加更多参数。如果你有变量a,b。。。等。添加其多项式特征,即a^2、a^3。。。b^2,b^3。。。等等可能会有帮助。如果您添加了足够多的多项式特征,您应该能够进行过拟合,尽管这并不一定意味着它在列车组上具有良好的拟合(RMSE值)
尝试根据要预测的值(y)绘制一些变量。也许你可以看到一个非线性模式(即对数关系)
你知道这些数据吗?也许一个倍数的变量,或者两个变量之间的除法可能是一个很好的指标
如果要对回归进行正则化(或如果软件自动应用),请尝试减小正则化参数
相关问题 更多 >
编程相关推荐