我正在训练一个模型来预测未来的降雨数据。我已经完成了模型的培训。 我正在使用这个数据集:https://www.kaggle.com/redikod/historical-rainfall-data-in-bangladesh 看起来是这样的:
Station Yea Month Day Rainfall dayofyear
1970-01-01 1 Dhaka 1970 1 1 0 1
1970-01-02 1 Dhaka 1970 1 2 0 2
1970-01-03 1 Dhaka 1970 1 3 0 3
1970-01-04 1 Dhaka 1970 1 4 0 4
1970-01-05 1 Dhaka 1970 1 5 0 5
我使用在线找到的代码作为参考,使用训练和测试数据完成了培训。然后我也检查了预测值和真实值
这是密码
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import tensorflow as tf
#data is in local folder
df = pd.read_csv("data.csv")
df.head(5)
df.drop(df[(df['Day']>28) & (df['Month']==2) & (df['Year']%4!=0)].index,inplace=True)
df.drop(df[(df['Day']>29) & (df['Month']==2) & (df['Year']%4==0)].index,inplace=True)
df.drop(df[(df['Day']>30) & ((df['Month']==4)|(df['Month']==6)|(df['Month']==9)|(df['Month']==11))].index,inplace=True)
date = [str(y)+'-'+str(m)+'-'+str(d) for y, m, d in zip(df.Year, df.Month, df.Day)]
df.index = pd.to_datetime(date)
df['date'] = df.index
df['dayofyear']=df['date'].dt.dayofyear
df.drop('date',axis=1,inplace=True)
df.head()
df.size()
df.info()
df.plot(x='Year',y='Rainfall',style='.', figsize=(15,5))
train = df.loc[df['Year'] <= 2015]
test = df.loc[df['Year'] == 2016]
train=train[train['Station']=='Dhaka']
test=test[test['Station']=='Dhaka']
X_train=train.drop(['Station','StationIndex','dayofyear'],axis=1)
Y_train=train['Rainfall']
X_test=test.drop(['Station','StationIndex','dayofyear'],axis=1)
Y_test=test['Rainfall']
from sklearn import svm
from sklearn.svm import SVC
model = svm.SVC(gamma='auto',kernel='linear')
model.fit(X_train, Y_train)
Y_pred = model.predict(X_test)
df1 = pd.DataFrame({'Actual Rainfall': Y_test, 'Predicted Rainfall': Y_pred})
df1[df1['Predicted Rainfall']!=0].head(10)
在此之后,我尝试实际使用该模型预测未来几天/几个月/几年的降雨量。我使用了一些,比如一些用于股票价格的(在调整代码之后)。但它们似乎都不起作用。 因为我已经训练了这个模型,所以我认为预测未来几天是很容易的。假设我用1970-2015年的数据进行培训,用2016年的数据进行测试。现在我想预测2017年的降雨量。差不多吧
我的问题是,我如何以直观的方式做到这一点
如果有人能回答这个问题,我将不胜感激
编辑@Mercury: 这是使用该代码后的实际结果。我怀疑模型是否在运行。。。 这是实际结果的图像:https://i.stack.imgur.com/81Vk1.png
数据非常简单。如果你参加一个kaggle竞赛,那么可解释性也不是一个大问题,只有准确性,你可以使用任何复杂的模型并获得好的结果。然而,如果我想要解释性,那么我将使用深度不超过4的决策树。减小深度,您将看到更通用的决策树。它会让你对数据有很好的了解
有些建议可以是:
然后检查复杂的模型,它们是否提高了您的准确性?他们可能会
如果他们真的这样做了,那么就使用它们,或者使用更简单的模型,因为它们具有更高的可解释性,更快的计算时间
我注意到一个非常简单的错误:
您尚未从培训数据中删除
Rainfall
列我大胆假设一下,你在训练和测试中都能获得100%的准确率,对吗?这就是原因。您的模型可以看到,在训练数据的“降雨”列中出现的任何东西都是答案,因此它在测试过程中准确地做到了这一点,从而获得了完美的结果,但事实上它根本无法预测任何东西
试着像这样跑步:
相关问题 更多 >
编程相关推荐