如何在python中使用sklearn回归器正确预测目标变量？

import pandas as pd from sklearn.model_selection import train_test_split from sklearn.ensemble import AdaBoostRegressor url = "https://gist.githubusercontent.com/adamFlyn/f71e2e0e66303df23dfc2f37ec98e8c7/raw/ba9e871e90201eb504e30127e99cf6179c3e3b18/tradedf.csv" df = pd.read_csv(url, parse_dates=['dates']) df.drop(columns=['Unnamed: 0'], inplace=True) df['log_eyci'] = np.log(df.eyci) ### Log value df['log_aus_avg_rain'] = np.log(df['aus_avg_rain']) ### Log value for i in range(3): df[f'avgRain_lag_{i+1}'] = df['aus_avg_rain'].shift(i+1) df.dropna(inplace=True) df[f'log_avgRain_lag_{i+1}'] = np.log(df[f'avgRain_lag_{i+1}']) for i in range(3): df[f'eyci_lag_{i+1}'] = df.eyci.shift(i+1) df.dropna(inplace=True) df[f'log_eyci_lag_{i+1}'] = np.log(df[f'eyci_lag_{i+1}']) df[f'log_difference_{i+1}'] = df.log_eyci - df[f'log_eyci_lag_{i+1}'] X,Y = df[['log_difference_2', 'log_difference_3', 'aus_avg_rain', 'aus_slg_fmCatl']] , df['log_difference_1'] X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, shuffle=False, random_state=42)

## make plot test_size = X_test.shape[0] plt.plot(list(range(test_size)), np.exp(df.tail(test_size).log_eyci_lag_1 + pred), label='predicted', color='red') plt.plot(list(range(test_size)), df.tail(test_size).eyci, label='real', color='blue') plt.legend(loc='best') plt.title('Predicted vs Real with log difference values')

1条回答

网友

1楼 · 发布于 2024-09-28 22:37:16

这是一个非常广泛的话题，你问了很多问题，包括DataScience.SE，CrossValidated，如何使用detrending，使用哪种类型的模型，如何在单个timeseries数据集上使用滚动窗口技术来生成多个（训练、测试）切片，从何处获取以下外部变量的月度数据集：

您的数据集（请添加引文）是2015-01年美国农业部牛肉月（批发）价格。。。2020-08. 这些价格是来自澳大利亚还是美国？（请添加引文、数据字典以解释列等）。为你试图建模的东西培养一种直觉是很好的，而不仅仅是向它扔更多的数据和更复杂的模型
你想预测12-18个月的未来价格：2020-09 .. 2022-02
因此，我预计两者都会出现：
- 年度季节性
- 长期经济供求波动
  - 对美国（？）/澳大利亚经济的依赖
  - 对美国（？）/澳大利亚出口每种特定类型牛肉的外国经济体的依赖性（中国、日本、韩国等）
- 其他外部事件（衰退、天气危机、关税、补贴、美国大豆贸易战等）无法从历史牛肉价格值中预测（如果你抛出更多的历史数据集，或者追溯到更远的时间，你只会阻塞你的模型，而不会增加对未来的预测能力）
因此，如果你想要更高的准确性，你真的需要所有这些外在事物的宏观模型——而不仅仅是原始历史数据集值本身

相关问题更多 >

编程相关推荐

热门问题

热门文章