模式识别挑战

2024-09-27 23:27:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我要说的是,我不是一个数据科学家,但我有必要学习我需要知道的东西。然而,我需要的建议,在哪里寻找和适当的算法研究

问题如下。我对传感器的输出进行了10年的1小时观测。对于这个论点,让我们使用一个气象站的输出,更具体地说,一个太阳能电池板,以毫伏为单位的浮子的形式

你可能会说,如果把这个时间序列的24小时数据子集(24点)作为与历史时间序列进行比较的矩阵,就可以确定过去的“晴天”。如果我们将最近24小时的数据作为比较,我们也许能够确定与今天“相似”的天数,从而从一个匹配的位置获取下一个后续矩阵,从历史行动中“预测”明天将发生什么

这当然是一个粗略的类比,但说明了我的问题

我希望从时间序列中取一个任意的24小时周期(我们称之为矩阵a),并从时间序列(矩阵的000s)中确定那些相似的24小时周期

我已经以各种类型的回归形式对这个主题进行了大量的回顾,并且在某个阶段确定了数据压缩算法将是最有效的,如果您可以从这个过程中获得后续的字典,但是,我意识到在这种情况下匹配是“精确的”,我希望是“相似的”

我已经确定了我认为是正确的,“逻辑回归中的L1惩罚和稀疏性”位于here

在这里,我(如果我理解正确的话)取一个比较矩阵,与其他矩阵进行比较,得到“相似性”的分数(在本例中称为C)。从这里我可以继续我的实验

如果有好心的数据科学家能帮我一个忙,1.确认我的方向是否有效,或者,如果不是2.指出我可以在哪里找到解决问题的方法,我将永远感激

非常感谢

ApteryxNZ公司


Tags: 数据算法时间序列矩阵传感器历史建议
2条回答

请注意,这实际上取决于如何定义“相似”

一个简单的方法是“最近邻”方法:将数据点视为24维向量,然后找到距离目标点最短的欧几里德(或曼哈顿或…)向量。那是最相似的日子(k-d树可以显著加快这一过程。)

但是,24维对你来说可能太多了。主成分分析(PCA)可以将其从24维降到较低的维数,同时尽可能地保持变异性。然后找到最近的点会快得多

请注意,这两种方法只有在逐值比较时才有效,也就是说,如果您不认为“相同但一小时后”特别相似

对于时间序列预测(prediction),可以搜索LSTM神经网络、SVM甚至MLP。我见过使用更简单的分类器(比如AODE)进行时间序列预测

要过滤将输入到时间序列的数据(如果适用),可以搜索Granger因果关系、粒子群优化甚至遗传算法

为了在时间序列中找到相似的模式,我认为最好的选择是使用用于语音识别的动态时间扭曲(DTW)

您可以在一些期刊中搜索相关工作,例如:

  • 模式识别字母
  • 模式识别
  • 神经计算
  • 应用软计算
  • 信息科学
  • 机器学习
  • 神经网络
  • 神经网络和学习系统的IEEE交易

相关问题 更多 >

    热门问题