在实现逻辑回归模型时包括功能 - 问答 - Python中文网

在实现逻辑回归模型时包括功能

2024-05-18 20:36:04 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

在某些情况下，我尝试进行一些匹配，以查看该公司是否与另一家公司匹配。我已经对数据进行了特性工程，如名称匹配、地址匹配、域匹配等

在此基础上，我还创建了另一个功能，该功能基于一种方法论，其中包含名称匹配、地址匹配和域匹配的组合，并基于直觉设置它们的权重，我认为这在确定匹配时更为重要。让我们称此功能为“最终分数”。这个分数给了我一个粗略的估计，看这是否是一场比赛

现在是我实现逻辑回归的部分。我试着用我设计的没有“最终分数”和“最终分数”的功能构建逻辑回归，结果非常相似

注意：我检查了功能的重要性，它非常重要

我的问题是，在训练模型时，将“最终分数”作为逻辑回归模型的一个特征是否是一种良好的做法

Tags：数据模型功能名称地址情况公司特性

1条回答

网友

1楼 · 发布于 2024-05-18 20:36:04

通常，在线性回归和逻辑回归类型模型中不需要高度相关的特征。它对性能没有影响，但会影响模型的解释

这个问题被称为Multicollinearity，是由于参数（系数）的不稳定（高方差）估计引起的

你可以看看这个answer来了解它的原因

我可以提供一个直观的例子，它可能会引起麻烦：

Y = P(scoring a goal by football player in a match)
Feature vector = [weight, height] # height and weight are highly correlated

然后学习的模型可以是：

log(P(goal)/P(1-goal)) =  0.55*weight- 0.12*height + bias

# how would you interpret the negative coefficient of height now?

有ways（正则化）来处理这个问题，也有situations可以安全地使用这些相关特性

相关问题更多 >

编程相关推荐

热门问题

热门文章