我试图使用Scikit Learn的随机森林回归器从实际GDP预测名义GDP
我从一个网站上读了数据,整理了一下,然后用我预测的未来三年的实际GDP合成了一个数据框架
我有以下代码:
from sklearn.ensemble import RandomForestRegressor
gdp = pd.read_html('https://www.thebalance.com/us-gdp-by-year-3305543')[0]
gdp.columns = gdp.iloc[0]
gdp = gdp[1:]
gdp['Year'] = gdp['Year'].astype(int)
gdp['Nominal GDP (trillions)'] = gdp['Nominal GDP (trillions)'].str.replace(',', '.').str.replace('$', '').astype(float)
gdp['Real GDP (trillions)'] = gdp['Real GDP (trillions)'].str.replace(',', '.').str.replace('$', '').astype(float)
X = pd.DataFrame(gdp['Real GDP (trillions)'].copy())
y = pd.DataFrame(gdp['Nominal GDP (trillions)'].copy())
X_pred = pd.DataFrame(data = [18.313, 18.960, 19.643], columns = ['Real GDP (trillions)'])
reg = RandomForestRegressor(n_estimators = 300)
reg.fit(X, y.values.ravel())
y_pred = reg.predict(X_pred)
它返回以下预测: 1 | 2 | 3 ---|---|--- 19.72172 | 21.05464667 | 21.05464667
为什么第二个和第三个预测是相同的?即使我将X_pred值更改为类似[18.313, 18.960, 39.643]
的值,也会发生这种情况
在您的培训数据中,只有一个值>;18.960:
因此,最终得到的值不太可能拆分为18.960和19.643,或者18.960和39.643。它不是可以插值的线性回归
我们可以检查每个树的阈值:
阈值的最大值无法分割您尝试预测的2个值,因此它们将始终位于相同的节点中,从而为您提供相同的预测
相关问题 更多 >
编程相关推荐