如何正确地预测SKR回归方程?

2024-09-30 04:27:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在为我的学校项目做一个大数据项目。我的数据集如下所示: https://github.com/gindeleo/climate/blob/master/GlobalTemperatures.csv

我在试着预测“陆地平均温度”的下一个数值。你知道吗

首先,我将csv导入到pandas中,并使其成为名为“df1”的数据帧。你知道吗

在sklearn的第一次尝试中出错后,我将“dt”列从string转换为datetime64,然后添加了一个名为“year”的列,它只显示日期值中的年份。-这可能是错误的-

df1["year"] = pd.DatetimeIndex(df1['dt']).year

在这一切之后,我准备好了我的数据进行reggression并调用了RandomForestReggressor:

landAvg = df1[["LandAverageTemperature"]]
year = df1[["year"]]

from sklearn.ensemble import RandomForestRegressor

rf_reg=RandomForestRegressor(n_estimators=10,random_state=0)
rf_reg.fit(year,landAvg.values.ravel())
print("Random forest:",rf_reg.predict(landAvg))

我运行了代码,看到了这个结果:

Random forest: [9.26558115 9.26558115 9.26558115 ... 9.26558115 9.26558115 9.26558115]

我没有得到任何错误,但我不认为结果是正确的-结果都是一样的,你可以看到-。另外,当我想得到下一个10年的预测时,我不知道该怎么做。用这个代码我只得到一个结果。你能帮我改进代码并得到正确的结果吗? 事先谢谢你的帮助。你知道吗


Tags: csv数据项目代码错误dtrandomsklearn
1条回答
网友
1楼 · 发布于 2024-09-30 04:27:03

仅仅用一年来预测气温是不够的。你也需要使用月份数据。以下是初学者的工作示例:

import pandas as pd
from sklearn.ensemble import RandomForestRegressor
df = pd.read_csv('https://raw.githubusercontent.com/gindeleo/climate/master/GlobalTemperatures.csv', usecols=['dt','LandAverageTemperature'], parse_dates=['dt'])
df = df.dropna()
df["year"] = df['dt'].dt.year
df["month"] = df['dt'].dt.month
X = df[["month", "year"]]
y = df["LandAverageTemperature"]
rf_reg=RandomForestRegressor(n_estimators=10,random_state=0)
rf_reg.fit(X, y)
y_pred = rf_reg.predict(X)
df_result = pd.DataFrame({'year': X['year'], 'month': X['month'], 'true': y, 'pred': y_pred})
print('True values and predictions')
print(df_result)
print('Feature importances', list(zip(X.columns, rf_reg.feature_importances_)))

这里是输出:

True values and predictions
      year  month    true     pred
0     1750      1   3.034   2.2944
1     1750      2   3.083   2.4222
2     1750      3   5.626   5.6434
3     1750      4   8.490   8.3419
4     1750      5  11.573  11.7569
...    ...    ...     ...      ...
3187  2015      8  14.755  14.8004
3188  2015      9  12.999  13.0392
3189  2015     10  10.801  10.7068
3190  2015     11   7.433   7.1173
3191  2015     12   5.518   5.1634

[3180 rows x 4 columns]
Feature importances [('month', 0.9543059863177156), ('year', 0.045694013682284394)]

相关问题 更多 >

    热门问题