“生命线”中的Cox-PH模型违反了虚拟变量的假设

2024-06-03 01:04:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用lifelines库来估计Cox-PH模型。对于回归,我有许多分类特性,我对每个特性进行一次热编码和删除一列,以避免多重共线性问题(虚拟变量陷阱)。我不附加代码,因为示例可能与文档here中给出的示例相似。在

{cdi>通过运行每个伪变量^来违反假设:

Variable 'dummy_a' failed the non-proportional test: p-value is 0.0063.
Advice: with so few unique values (only 2), you can try `strata=['dummy_a']` in the call in `.fit`. See documentation in link [A] and [B] below.

我应该如何理解针对单个分类特性的多个虚拟变量的建议?我应该把它们都加到地层里吗?在

如有任何评论,我将不胜感激:)


Tags: the代码in文档模型示例编码分类
1条回答
网友
1楼 · 发布于 2024-06-03 01:04:17

@abu,你的问题在文档中带来了一个明显的空白——如果虚拟变量违反比例检验,该怎么办。在本例中,我建议而不是修改变量,并将原始列添加为分层变量,例如:fit(..., strata=['dummy'])

相关问题 更多 >