在实现逻辑回归模型时包括功能

2024-05-18 20:36:04 发布

您现在位置:Python中文网/ 问答频道 /正文

在某些情况下,我尝试进行一些匹配,以查看该公司是否与另一家公司匹配。我已经对数据进行了特性工程,如名称匹配、地址匹配、域匹配等

在此基础上,我还创建了另一个功能,该功能基于一种方法论,其中包含名称匹配、地址匹配和域匹配的组合,并基于直觉设置它们的权重,我认为这在确定匹配时更为重要。让我们称此功能为“最终分数”。这个分数给了我一个粗略的估计,看这是否是一场比赛

现在是我实现逻辑回归的部分。我试着用我设计的没有“最终分数”和“最终分数”的功能构建逻辑回归,结果非常相似

注意:我检查了功能的重要性,它非常重要

我的问题是,在训练模型时,将“最终分数”作为逻辑回归模型的一个特征是否是一种良好的做法


Tags: 数据模型功能名称地址情况公司特性
1条回答
网友
1楼 · 发布于 2024-05-18 20:36:04

通常,在线性回归和逻辑回归类型模型中不需要高度相关的特征。它对性能没有影响,但会影响模型的解释

这个问题被称为Multicollinearity,是由于参数(系数)的不稳定(高方差)估计引起的

你可以看看这个answer来了解它的原因

我可以提供一个直观的例子,它可能会引起麻烦:

Y = P(scoring a goal by football player in a match)
Feature vector = [weight, height] # height and weight are highly correlated

然后学习的模型可以是:

log(P(goal)/P(1-goal)) =  0.55*weight- 0.12*height + bias

# how would you interpret the negative coefficient of height now?

ways(正则化)来处理这个问题,也有situations可以安全地使用这些相关特性

相关问题 更多 >

    热门问题