值错误：数组长度与索引长度不匹配

import pandas as pd from sklearn import cross_validation as cv import xgboost as xgb df_train = pd.read_csv("/Users/pavan7vasan/Desktop/Machine_Learning/Project datasets/Santander_Customer_Satisfaction/train.csv") df_test = pd.read_csv("/Users/pavan7vasan/Desktop/Machine_Learning/Project Datasets/Santander_Customer_Satisfaction/test.csv") df_train = df_train.replace(-999999,2) id_test = df_test['ID'] y_train = df_train['TARGET'].values X_train = df_train.drop(['ID','TARGET'], axis=1).values X_test = df_test.drop(['ID'], axis=1).values X_train, X_test, y_train, y_test = cv.train_test_split(X_train, y_train, random_state=1301, test_size=0.4) clf = xgb.XGBClassifier(objective='binary:logistic', missing=9999999999, max_depth = 7, n_estimators=200, learning_rate=0.1, nthread=4, subsample=1.0, colsample_bytree=0.5, min_child_weight = 3, reg_alpha=0.01, seed=7) clf.fit(X_train, y_train, early_stopping_rounds=50, eval_metric="auc", eval_set=[(X_train, y_train), (X_test, y_test)]) y_pred = clf.predict_proba(X_test) print("Cross validating and checking the score...") scores = cv.cross_val_score(clf, X_train, y_train) ''' test = [] result = [] for each in id_test: test.append(each) for each in y_pred[:,1]: result.append(each) print len(test) print len(result) ''' submission = pd.DataFrame({"ID":id_test, "TARGET":y_pred[:,1]}) #submission = pd.DataFrame({"ID":test, "TARGET":result}) submission.to_csv("submission_XGB_Pavan.csv", index=False)

Traceback (most recent call last): File "/Users/pavan7vasan/Documents/workspace/Machine_Learning_Project/Kaggle/XG_Boost.py", line 45, in <module> submission = pd.DataFrame({"ID":id_test, "TARGET":y_pred[:,1]}) File "/anaconda/lib/python2.7/site-packages/pandas/core/frame.py", line 214, in __init__ mgr = self._init_dict(data, index, columns, dtype=dtype) File "/anaconda/lib/python2.7/site-packages/pandas/core/frame.py", line 341, in _init_dict dtype=dtype) File "/anaconda/lib/python2.7/site-packages/pandas/core/frame.py", line 4798, in _arrays_to_mgr index = extract_index(arrays) File "/anaconda/lib/python2.7/site-packages/pandas/core/frame.py", line 4856, in extract_index raise ValueError(msg) ValueError: array length 30408 does not match index length 75818

1条回答

网友

1楼 · 发布于 2024-05-20 09:09:42

问题是您定义的X_test是@maxymoo提到的两倍。首先你把它定义为

X_test = df_test.drop(['ID'], axis=1).values

然后你可以重新定义它：

X_train, X_test, y_train, y_test = cv.train_test_split(X_train, y_train, random_state=1301, test_size=0.4)

这意味着现在X_test的大小等于0.4*len(X_train)。之后：

y_pred = clf.predict_proba(X_test)

您已经对X_train的那一部分进行了预测，并试图用它和初始的id_test创建数据帧，初始的X_test具有原始的X_test长度。
你可以在train_test_split中使用X_fit和X_eval，而不要隐藏初始X_train和X_test，因为对于你的cross_validation你也有不同的X_train，这意味着你得不到正确的答案，或者你的^}在公共/私人评分中不准确。

相关问题更多 >

编程相关推荐

热门问题

热门文章