我想预测一个球迷是否会参加体育赛事。我的数据(熊猫数据帧)包括球迷信息(人口统计等),以及他们是否参加了最后10场比赛(g1谳出席-g10谳出席)。你知道吗
fan_info age neighborhood g1_attend g2_attend ... g1_neigh_turnout
2717 22 downtown 0 1 .47
2219 67 east side 1 1 .78
当数据帧中不存在g11-u-attend时,我如何预测他们是否会参加g11-u-attend?你知道吗
最初,我打算研究如何应用scikitlearn中的一些基本模型进行分类,可能只是在DataFrame中添加一个g11u列。出于某种原因,这一切让我很困惑。我现在在想,把它当作一个时间序列更合适,并且正在研究其他模型。你知道吗
你是对的,你不能只是添加一个新的类别(即输出类)到一个分类器这需要一些做时间序列。你知道吗
但是在时间序列上使用分类器有一种相当标准的技术。断言(有条件的)时间独立性,并使用窗口。你知道吗
简言之,我们将假设是否有人参加一个游戏只取决于我们捕获的变量,而不是其他时间因素(或其他一般因素)。 i、 我们假设我们可以翻译他们在一年左右参加的比赛的历史,这仍然是相同的概率。 这显然是错误的,但我们还是这样做,因为机器学习技术会处理数据中的一些噪声。 这显然是错误的,因为有些人会避免在冬天比赛,因为它太冷等
那么现在在分类器上:
我们有输入,只需要一个输出。 所以基本的想法是我们要训练一个模型, 他们是否参加了前9场比赛作为输入,预测他们是否会参加第10场比赛
所以输出输入是1
age
,neighbourhood
,g1_attend
,g2_attend
,。。。g9_attend
输出是g10_attend
一个二进制值。你知道吗这给了我们训练数据。你知道吗
当我们测试它的时候,我们移动所有的东西:切换
g1_attend
为g2_attend
,切换g2_attend
为g3_attend
,然后。。。和g9_attend
表示g10_attend
。 然后我们的预测输出是g11_attend
。你知道吗您还可以训练具有不同窗口大小的多个模型。 只看最后两场比赛,预测第三场的上座率。 这会给你更多的trainind数据,因为你可以这样做。
g1,g2
->;g3
和g2,g3
->;g4
等。你知道吗你可以训练不同大小的窗口,并用一些集成技术合并结果。你知道吗
尤其是训练
g1,...,g8
->;g9
是个好主意, 然后用它来预测g10
(使用g2,...,g9
作为输入) 检查它是否工作。你知道吗我建议以后你可以在Cross Validated上问这些问题。虽然这可能是关于堆栈溢出的话题,但更多的是关于这个话题,而且有更多的统计学家和机器学习专家。你知道吗
1我建议暂时放弃
fan_id
作为输入。我只是不认为这会让你一事无成,但这是超越这个问题来解释为什么。你知道吗相关问题 更多 >
编程相关推荐