Statsmodels Logit为伪平方提供inf

2024-09-29 19:24:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图使用statsmodels Logit来训练二元分类的逻辑回归模型,但当我将模型与训练集相匹配时,我得到以下消息: “可能完全的准分离:观测值的分数为0.24 完美预测。” 伪r平方得到的结果是inf

我这样做是作为一门课程的一部分,使用Alteryx作为这一部分,他们得到了0.59的R平方,使用了与我用作预测变量相同的变量。 Link to video from the course using Alteryx

Link to download data

守则:

import statsmodels.api as sm
import pandas as pd
from sklearn.model_selection import train_test_split

df = pd.read_csv("hotelloyaltydata.csv")

X = pd.get_dummies(df.drop(["Customer Key", "First Name", "Last Name","Reedemer", "Customer Segment", "Income", "Region"], axis=1), drop_first=True)
Y = pd.get_dummies(df[["Reedemer"]], drop_first=True)["Reedemer_Yes"].values
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.3)

model = sm.Logit(y_train, sm.add_constant(x_train))
results = model.fit()
print(results.summary())

提前谢谢


Tags: to模型testimportdfmodellinktrain

热门问题