在某些情况下,我尝试进行一些匹配,以查看该公司是否与另一家公司匹配。我已经对数据进行了特性工程,如名称匹配、地址匹配、域匹配等
在此基础上,我还创建了另一个功能,该功能基于一种方法论,其中包含名称匹配、地址匹配和域匹配的组合,并基于直觉设置它们的权重,我认为这在确定匹配时更为重要。让我们称此功能为“最终分数”。这个分数给了我一个粗略的估计,看这是否是一场比赛
现在是我实现逻辑回归的部分。我试着用我设计的没有“最终分数”和“最终分数”的功能构建逻辑回归,结果非常相似
注意:我检查了功能的重要性,它非常重要
我的问题是,在训练模型时,将“最终分数”作为逻辑回归模型的一个特征是否是一种良好的做法
通常,在线性回归和逻辑回归类型模型中不需要高度相关的特征。它对性能没有影响,但会影响模型的解释
这个问题被称为Multicollinearity,是由于参数(系数)的不稳定(高方差)估计引起的
你可以看看这个answer来了解它的原因
我可以提供一个直观的例子,它可能会引起麻烦:
然后学习的模型可以是:
有ways(正则化)来处理这个问题,也有situations可以安全地使用这些相关特性
相关问题 更多 >
编程相关推荐