我们有一个数据集,其中有超过40万个独立用户,他们每年在网站上的访问天数顺序如下所示。值可以在1和365之间变化
{
U1:[3,6,28,57,128,129,247,289,...],
U2:[18,77,81,179,340,...],
U3:[192,195,289,298,310,376,...],
U4:[93],
...
...
U400k:[54,97,164,167,250,...]
}
我们有四年的类似数据集。我们希望为个人用户预测,用户可能会在一年中的第二天再次访问该网站。我在考虑如何推广基于序列的模型;但任何其他想法都是受欢迎的。有人知道我们如何解决这个问题吗
1)一种方法是对数据进行分类/聚类,并在组级别进行分析。(动态时间序列扭曲或聚类技术)
如果您想在用户级别进行分析,那么构建所有100K时间序列
2)我觉得根据您掌握的数据,无法预测“用户将在哪一天到达现场”。你可以通过时间序列算法预测明年的访问量。然后使用访问次数来确定他可能何时到达现场
3)你也可以尝试Facebook的prophet时间序列预测模型,esp构建用于预测网站访问量
https://machinelearningstories.blogspot.com/2017/05/facebooks-phophet-model-for-forecasting.html
相关问题 更多 >
编程相关推荐