支持向量机;训练数据不包含目标

2024-09-29 09:33:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我想预测一个球迷是否会参加体育赛事。我的数据(熊猫数据帧)包括球迷信息(人口统计等),以及他们是否参加了最后10场比赛(g1谳出席-g10谳出席)。你知道吗

fan_info age neighborhood g1_attend g2_attend ... g1_neigh_turnout 
2717     22   downtown      0         1               .47
2219     67   east side     1         1               .78

当数据帧中不存在g11-u-attend时,我如何预测他们是否会参加g11-u-attend?你知道吗

最初,我打算研究如何应用scikitlearn中的一些基本模型进行分类,可能只是在DataFrame中添加一个g11u列。出于某种原因,这一切让我很困惑。我现在在想,把它当作一个时间序列更合适,并且正在研究其他模型。你知道吗


Tags: 数据模型info信息ageg1g2fan
1条回答
网友
1楼 · 发布于 2024-09-29 09:33:18

你是对的,你不能只是添加一个新的类别(即输出类)到一个分类器这需要一些做时间序列。你知道吗

但是在时间序列上使用分类器有一种相当标准的技术。断言(有条件的)时间独立性,并使用窗口。你知道吗

简言之,我们将假设是否有人参加一个游戏只取决于我们捕获的变量,而不是其他时间因素(或其他一般因素)。 i、 我们假设我们可以翻译他们在一年左右参加的比赛的历史,这仍然是相同的概率。 这显然是错误的,但我们还是这样做,因为机器学习技术会处理数据中的一些噪声。 这显然是错误的,因为有些人会避免在冬天比赛,因为它太冷等

那么现在在分类器上:

我们有输入,只需要一个输出。 所以基本的想法是我们要训练一个模型, 他们是否参加了前9场比赛作为输入,预测他们是否会参加第10场比赛

所以输出输入是1ageneighbourhoodg1_attendg2_attend,。。。g9_attend 输出是g10_attend一个二进制值。你知道吗

这给了我们训练数据。你知道吗

当我们测试它的时候,我们移动所有的东西:切换g1_attendg2_attend,切换g2_attendg3_attend,然后。。。和g9_attend表示g10_attend。 然后我们的预测输出是g11_attend。你知道吗

您还可以训练具有不同窗口大小的多个模型。 只看最后两场比赛,预测第三场的上座率。 这会给你更多的trainind数据,因为你可以这样做。 g1,g2->;g3g2,g3->;g4等。你知道吗

你可以训练不同大小的窗口,并用一些集成技术合并结果。你知道吗

尤其是训练g1,...,g8->;g9是个好主意, 然后用它来预测g10(使用g2,...,g9作为输入) 检查它是否工作。你知道吗

我建议以后你可以在Cross Validated上问这些问题。虽然这可能是关于堆栈溢出的话题,但更多的是关于这个话题,而且有更多的统计学家和机器学习专家。你知道吗


1我建议暂时放弃fan_id作为输入。我只是不认为这会让你一事无成,但这是超越这个问题来解释为什么。你知道吗

相关问题 更多 >