如何用100k数据样本推广基于序列的模型?

2024-10-03 04:31:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我们有一个数据集,其中有超过40万个独立用户,他们每年在网站上的访问天数顺序如下所示。值可以在1和365之间变化

{
U1:[3,6,28,57,128,129,247,289,...],
U2:[18,77,81,179,340,...],
U3:[192,195,289,298,310,376,...],
U4:[93],
...
...
U400k:[54,97,164,167,250,...]
}

我们有四年的类似数据集。我们希望为个人用户预测,用户可能会在一年中的第二天再次访问该网站。我在考虑如何推广基于序列的模型;但任何其他想法都是受欢迎的。有人知道我们如何解决这个问题吗


Tags: 数据用户模型顺序网站序列天数u1
1条回答
网友
1楼 · 发布于 2024-10-03 04:31:54

1)一种方法是对数据进行分类/聚类,并在组级别进行分析。(动态时间序列扭曲或聚类技术)

如果您想在用户级别进行分析,那么构建所有100K时间序列

2)我觉得根据您掌握的数据,无法预测“用户将在哪一天到达现场”。你可以通过时间序列算法预测明年的访问量。然后使用访问次数来确定他可能何时到达现场

3)你也可以尝试Facebook的prophet时间序列预测模型,esp构建用于预测网站访问量

https://machinelearningstories.blogspot.com/2017/05/facebooks-phophet-model-for-forecasting.html

相关问题 更多 >