解决分类问题并找到最佳阈值

2024-09-27 07:35:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我工作中的一个项目真的有点麻烦。我在周末试图解决下面的问题,但没有成功。你知道吗

好的,我们运营一个学校教育平台,我们希望实现以下目标。我们有一个模型,确定学生失去兴趣的可能性(损失率)。你知道吗

现在,如果某个时间点(t)的损失率比前一个时间点(t-6)增加到某个阈值以上,我们希望向学生提供折扣优惠,甚至提供免费课程。问题是如何正确设置阈值?我的意思是使用学生在t+12时间点离开我们平台的实际数据来最小化假阳性和真阴性。你知道吗

我们目前的方法和数据是这样的。根据历史数据,我们有以下设置: [学号],[升学时间值],[现在的损失率(t)],[当时的损失率(t-6)],[绝对差值([t1]-[t-6]),[相对差值([t1]-[t-6])/[t-6]),[观察到的损失率(t+12)]

  • 贷款价值比通常在0到500之间。你知道吗
  • 损失率一般在0.01%到0.25%之间
  • 观察到的损失[0或1]。1表示该学生已取消订阅。这是未来12个月(t+12)的事实/观察。你知道吗

我想做的是有一些LTV桶和阈值。根据阈值,我们可以邮寄/不邮寄客户,LTV桶帮助我们提供服务。你知道吗

所需的操作规则集如下所示(要实现的pragamatic):

  • LTV<;X1 |绝对差值>;Y1或相对差值>;Z1
  • X2和X2之间的LTV |绝对差>Y2或相对差>Z2
  • X3和X3之间的贷款价值比|绝对差异>Y3或相对差异>Z3
  • LTV>;X4 |绝对差>;Y4或相对差>;Z4

*注意:这可能会导致LTV组中的拆分不相关,这意味着它不会有助于优化。你知道吗

我们希望具有成本效益,以便在付费/免费服务之间保持平衡。 首选的解决方案是Python,但是R也是一个选项。一些可视化的帮助太好了!你知道吗

谢谢你花时间读这篇文章。 常涌


Tags: 数据gt时间阈值平台差异学生t1

热门问题