大规模多维数据的无监督聚类

2024-05-03 11:42:14 发布

您现在位置:Python中文网/ 问答频道 /正文

你好,我是一个机器学习新手。我需要一些关于高维数据无监督聚类的帮助。我有超过15维的数据,大约有5-8万行。数据看起来是这样的(15个参与者,每个参与者的行数几乎相等,还有15个特征)——

^{tb1}$

数据由多个参与者组成,每个参与者都有多行数据,并带有时间戳和特征。我的目标是根据参与者对这些数据进行聚类,并根据这些聚类进行推断。这里的问题是,每个参与者都有许多行,我不能用一个点来表示每个参与者,因此对它们进行聚类似乎是一项困难的任务

我想在以下方面得到帮助:

  1. 对这些数据进行聚类的最佳方式是什么,这样我就可以根据参与者进行推断

  2. 我应该使用哪种聚类技术?我尝试过sklearn的Kmeans、meanshift和其他库,但它们花费的时间太长,导致我的系统崩溃

对不起,如果有点难理解,我会尽力回答你的问题。提前谢谢你的帮助。如果这个问题与其他问题非常相似,请让我知道(我找不到)

谢谢:)


Tags: 数据机器目标方式时间聚类特征sklearn
1条回答
网友
1楼 · 发布于 2024-05-03 11:42:14

既然你在必要的计算量上有困难,你必须在这里做出某种妥协。这里有一些建议可能会解决你的问题,但它们都是有代价的

  1. 降维,即PCA,将列数减少到~2左右。您将丢失一些信息,但您将能够绘制它并通过K-means进行推理

  2. 平均患者数据。不确定这是否足够,这取决于您的数据。这将失去对患者的长期观察,但可能会大幅减少行数

我的建议是进行降维,因为丢失患者的随时间推移的数据可能会使数据变得无用。除了PCA还有其他东西,例如自动编码器。对于你描述的聚类方式,我建议你坚持K-means或软K-means

相关问题 更多 >