Python中带rpy2的有序逻辑回归(R的Python接口):共线预测问题

2024-05-20 14:37:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图在Python中使用rpy2(R语言的Python接口)调用R的mass.polr函数来执行顺序逻辑回归。但是,当我的预测器中有一些共线或几乎共线的列时,我会遇到麻烦:mass.polr会在拟合过程中自动丢弃其中一些列,这在我尝试获取训练数据的预测时会导致错误

下面是一个最起码的例子:

from rpy2.robjects import r, pandas2ri
from rpy2.robjects.packages import importr

pandas2ri.activate()

mass = importr("MASS")

# dataframe with two collinear predictors (x1 and x2)
df = pd.DataFrame(columns = ['target', 'x1', 'x2', 'x3'],
                  data    = [[   0   ,  0  ,  0  ,  1  ],
                             [   1   ,  1  ,  1  ,  0  ],
                             [   2   ,  1  ,  1  ,  1  ]])

model = mass.polr('as.factor(target) ~ .', df, Hess = True) # gives warning below
'''
Warning message:
In polr(as.factor(target) ~ ., data = df, Hess = TRUE) :
  design appears to be rank-deficient, so dropping some coefs

'''

r.predict(model, df, type = "class").__array__() # gives error below
'''
Error in X %*% object$coefficients : non-conformable arguments
'''

同样的错误实际上也发生在R中,但通过查看summary(model),我至少可以看到哪些列被丢弃了

相反,在Python中,r.summary(model).rx2('coefficients')(在R中应该显示与summary(model)相同的输出)不显示系数名称,只显示裸值:

array([[4.57292582e+01, 8.25605929e+02, 5.53887231e-02],
       [2.11604944e+01, 2.85721885e+02, 7.40597606e-02],
       [3.19476895e+01, 3.60605165e+02, 8.85946531e-02],
       [5.66312792e+01, 8.93862000e+02, 6.33557296e-02]])

有人知道用Python检索系数名称的方法吗?或者还有其他解决办法吗


Tags: fromimporttargetdfmodel错误polrsummary
1条回答
网友
1楼 · 发布于 2024-05-20 14:37:09

r.summary(model).rx2('coefficients')返回一个没有名称的对象,因为您正在请求将R对象转换为该脚本前面的pandas(并隐式地numpy)对象(第pandas2ri.activate()行)。Numpy数组没有命名元素

不再建议使用activate。考虑在上下文中使用本地转换器(例如,在doc:https://rpy2.github.io/doc/v3.3.x/html/generated_rst/pandas.html中使用^ {CD2}})。

相关问题 更多 >