为什么随机森林回归预测的值完全相同？

from sklearn.ensemble import RandomForestRegressor gdp = pd.read_html('https://www.thebalance.com/us-gdp-by-year-3305543')[0] gdp.columns = gdp.iloc[0] gdp = gdp[1:] gdp['Year'] = gdp['Year'].astype(int) gdp['Nominal GDP (trillions)'] = gdp['Nominal GDP (trillions)'].str.replace(',', '.').str.replace('$', '').astype(float) gdp['Real GDP (trillions)'] = gdp['Real GDP (trillions)'].str.replace(',', '.').str.replace('$', '').astype(float) X = pd.DataFrame(gdp['Real GDP (trillions)'].copy()) y = pd.DataFrame(gdp['Nominal GDP (trillions)'].copy()) X_pred = pd.DataFrame(data = [18.313, 18.960, 19.643], columns = ['Real GDP (trillions)']) reg = RandomForestRegressor(n_estimators = 300) reg.fit(X, y.values.ravel()) y_pred = reg.predict(X_pred)

1条回答

网友

1楼 · 发布于 2024-10-01 07:35:49

在您的培训数据中，只有一个值>；18.960：

X[X.values>18.960]

    Real GDP (trillions)
91  19.092

因此，最终得到的值不太可能拆分为18.960和19.643，或者18.960和39.643。它不是可以插值的线性回归

我们可以检查每个树的阈值：

thres = np.unique([j for i in reg.estimators_ for j in i.tree_.threshold])
np.sort(thres)[-10:]

array([17.80000019, 17.9375    , 18.00199986, 18.05999947, 18.20950031,
       18.26199913, 18.41149998, 18.41599941, 18.61799908, 18.88999939])

阈值的最大值无法分割您尝试预测的2个值，因此它们将始终位于相同的节点中，从而为您提供相同的预测

相关问题更多 >

编程相关推荐

热门问题

热门文章