大规模多维数据的无监督聚类 - 问答 - Python中文网

大规模多维数据的无监督聚类

2024-05-03 11:42:14 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

你好，我是一个机器学习新手。我需要一些关于高维数据无监督聚类的帮助。我有超过15维的数据，大约有5-8万行。数据看起来是这样的（15个参与者，每个参与者的行数几乎相等，还有15个特征）——

^{tb1}$

数据由多个参与者组成，每个参与者都有多行数据，并带有时间戳和特征。我的目标是根据参与者对这些数据进行聚类，并根据这些聚类进行推断。这里的问题是，每个参与者都有许多行，我不能用一个点来表示每个参与者，因此对它们进行聚类似乎是一项困难的任务

我想在以下方面得到帮助：

对这些数据进行聚类的最佳方式是什么，这样我就可以根据参与者进行推断
我应该使用哪种聚类技术？我尝试过sklearn的Kmeans、meanshift和其他库，但它们花费的时间太长，导致我的系统崩溃

对不起，如果有点难理解，我会尽力回答你的问题。提前谢谢你的帮助。如果这个问题与其他问题非常相似，请让我知道（我找不到）

谢谢：）

Tags：数据机器目标方式时间聚类特征 sklearn

1条回答

网友

1楼 · 发布于 2024-05-03 11:42:14

既然你在必要的计算量上有困难，你必须在这里做出某种妥协。这里有一些建议可能会解决你的问题，但它们都是有代价的

降维，即PCA，将列数减少到~2左右。您将丢失一些信息，但您将能够绘制它并通过K-means进行推理
平均患者数据。不确定这是否足够，这取决于您的数据。这将失去对患者的长期观察，但可能会大幅减少行数

我的建议是进行降维，因为丢失患者的随时间推移的数据可能会使数据变得无用。除了PCA还有其他东西，例如自动编码器。对于你描述的聚类方式，我建议你坚持K-means或软K-means

相关问题更多 >

编程相关推荐

热门问题

热门文章