我试图使用statsmodels Logit来训练二元分类的逻辑回归模型,但当我将模型与训练集相匹配时,我得到以下消息: “可能完全的准分离:观测值的分数为0.24 完美预测。” 伪r平方得到的结果是inf
我这样做是作为一门课程的一部分,使用Alteryx作为这一部分,他们得到了0.59的R平方,使用了与我用作预测变量相同的变量。 Link to video from the course using Alteryx
守则:
import statsmodels.api as sm
import pandas as pd
from sklearn.model_selection import train_test_split
df = pd.read_csv("hotelloyaltydata.csv")
X = pd.get_dummies(df.drop(["Customer Key", "First Name", "Last Name","Reedemer", "Customer Segment", "Income", "Region"], axis=1), drop_first=True)
Y = pd.get_dummies(df[["Reedemer"]], drop_first=True)["Reedemer_Yes"].values
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.3)
model = sm.Logit(y_train, sm.add_constant(x_train))
results = model.fit()
print(results.summary())
提前谢谢
目前没有回答
相关问题 更多 >
编程相关推荐