处理分类中稀有因子水平的一般策略?

2024-09-30 16:33:28 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我有这样一个数据集:

  breakfast    lunch     dinner    mood  
 ----------- ---------- --------- ------ 
  waffles     sandwich   chili     good  
  sausages    sandwich   pasta     good  
  yogurt      salad      stew      bad   
  gruel       salad      pizza     bad   
  gruel       pizza      pizza     good  
  sausages    pizza      pasta     good  
  waffles     salad      chili     good  
  gruel       soup       pizza     bad   
  waffles     soup       chili     good  
  sausages    salad      pasta     good  
  waffles     pizza      chili     good  
  yogurt      sandwich   stew      good  
  yogurt      pizza      stew      good  
  sausages    soup       pasta     good  
  gruel       sandwich   pizza     good  
  yogurt      soup       waffles   good  

我想根据一个人那天吃的东西来预测他的情绪。因此,我将进行70/30训练/测试分割,并使用随机林、SVM或类似的方法来构建分类器

至少和我过去使用过的一样,如果预测值在测试集中的级别没有出现在训练集中,我使用过的分类器会抱怨。这可能发生在最后一行,其中dinner==“华夫饼干”

为了避免这种情况,在进行拆分之前,我通常会删除任何列中频率低于10%的行

我想可能有更好的办法。我主要用R编写代码,但如果您想用Python发布答案,我可能能够理解它

谢谢


Tags: 分类器badgoodsoupdinnerpizzasandwichpasta
1条回答
网友
1楼 · 发布于 2024-09-30 16:33:28

现在我知道了行话,我发现这篇文章有一个R用例:stratified splitting the data

应用于我的例子,对晚餐和由此产生的情绪进行分层:

library(splitstackshape)
library(readr)

meals_mood_text <- "breakfast   lunch   dinner  mood
waffles sandwich    chili   good
sausages    sandwich    pasta   good
yogurt  soup    waffles good
yogurt  salad   stew    bad
gruel   salad   pizza   bad
gruel   pizza   pizza   good
sausages    pizza   pasta   good
waffles salad   chili   good
gruel   soup    pizza   bad
waffles soup    chili   good
sausages    salad   pasta   good
waffles pizza   chili   good
yogurt  sandwich    stew    good
yogurt  pizza   stew    good
sausages    soup    pasta   good
gruel   sandwich    pizza   good"

meals_mood_frame <-
  read.table(textConnection(meals_mood_text), header = TRUE)
closeAllConnections()

strat.res <- stratified(meals_mood_frame, c('dinner','mood'), 0.7, bothSets = TRUE)

print(strat.res[[1]])

print(strat.res[[2]])

相关问题 更多 >