我要说的是,我不是一个数据科学家,但我有必要学习我需要知道的东西。然而,我需要的建议,在哪里寻找和适当的算法研究
问题如下。我对传感器的输出进行了10年的1小时观测。对于这个论点,让我们使用一个气象站的输出,更具体地说,一个太阳能电池板,以毫伏为单位的浮子的形式
你可能会说,如果把这个时间序列的24小时数据子集(24点)作为与历史时间序列进行比较的矩阵,就可以确定过去的“晴天”。如果我们将最近24小时的数据作为比较,我们也许能够确定与今天“相似”的天数,从而从一个匹配的位置获取下一个后续矩阵,从历史行动中“预测”明天将发生什么
这当然是一个粗略的类比,但说明了我的问题
我希望从时间序列中取一个任意的24小时周期(我们称之为矩阵a),并从时间序列(矩阵的000s)中确定那些相似的24小时周期
我已经以各种类型的回归形式对这个主题进行了大量的回顾,并且在某个阶段确定了数据压缩算法将是最有效的,如果您可以从这个过程中获得后续的字典,但是,我意识到在这种情况下匹配是“精确的”,我希望是“相似的”
我已经确定了我认为是正确的,“逻辑回归中的L1惩罚和稀疏性”位于here
在这里,我(如果我理解正确的话)取一个比较矩阵,与其他矩阵进行比较,得到“相似性”的分数(在本例中称为C)。从这里我可以继续我的实验
如果有好心的数据科学家能帮我一个忙,1.确认我的方向是否有效,或者,如果不是2.指出我可以在哪里找到解决问题的方法,我将永远感激
非常感谢
ApteryxNZ公司
请注意,这实际上取决于如何定义“相似”
一个简单的方法是“最近邻”方法:将数据点视为24维向量,然后找到距离目标点最短的欧几里德(或曼哈顿或…)向量。那是最相似的日子(k-d树可以显著加快这一过程。)
但是,24维对你来说可能太多了。主成分分析(PCA)可以将其从24维降到较低的维数,同时尽可能地保持变异性。然后找到最近的点会快得多
请注意,这两种方法只有在逐值比较时才有效,也就是说,如果您不认为“相同但一小时后”特别相似
对于时间序列预测(prediction),可以搜索LSTM神经网络、SVM甚至MLP。我见过使用更简单的分类器(比如AODE)进行时间序列预测
要过滤将输入到时间序列的数据(如果适用),可以搜索Granger因果关系、粒子群优化甚至遗传算法
为了在时间序列中找到相似的模式,我认为最好的选择是使用用于语音识别的动态时间扭曲(DTW)
您可以在一些期刊中搜索相关工作,例如:
相关问题 更多 >
编程相关推荐