为什么列车试验分程和管道交叉试验分程的r2分有很大差异?

2024-05-19 07:05:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我想知道为什么列车测试分离和管道交叉值评分之间的r2评分有很大差异?我怀疑这是因为模型可以通过管道中的CountVectorizer()看到未知单词。但是基于管道的概念,CountVectorizer()应该只在交叉值分割的训练集上工作

pipe=Pipeline([('Vect', CountVectorizer()), ('rf', RandomForestRegressor(random_state=1)) ])

X_train, X_test, y_train, y_test=train_test_split(df['X'], df['price'], shuffle= False, test_size=0.5)

reg=pipe.fit(X_train,y_train )
mypred= reg.predict(X_test)
r2_score(mypred, y_test)
# result is -0.2
cross_val_score(pipe,df['X'], df['price'],cv=2)
# result is about 0.3

Tags: testdf管道istrainresultreg评分

热门问题