假设我有这样一个数据集:
breakfast lunch dinner mood
----------- ---------- --------- ------
waffles sandwich chili good
sausages sandwich pasta good
yogurt salad stew bad
gruel salad pizza bad
gruel pizza pizza good
sausages pizza pasta good
waffles salad chili good
gruel soup pizza bad
waffles soup chili good
sausages salad pasta good
waffles pizza chili good
yogurt sandwich stew good
yogurt pizza stew good
sausages soup pasta good
gruel sandwich pizza good
yogurt soup waffles good
我想根据一个人那天吃的东西来预测他的情绪。因此,我将进行70/30训练/测试分割,并使用随机林、SVM或类似的方法来构建分类器
至少和我过去使用过的一样,如果预测值在测试集中的级别没有出现在训练集中,我使用过的分类器会抱怨。这可能发生在最后一行,其中dinner
==“华夫饼干”
为了避免这种情况,在进行拆分之前,我通常会删除任何列中频率低于10%的行
我想可能有更好的办法。我主要用R编写代码,但如果您想用Python发布答案,我可能能够理解它
谢谢
现在我知道了行话,我发现这篇文章有一个R用例:stratified splitting the data
应用于我的例子,对晚餐和由此产生的情绪进行分层:
相关问题 更多 >
编程相关推荐