有没有办法将OneHot编码的SciPy稀疏矩阵应用于PCA?

2024-09-26 04:42:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我的数据既有数字属性,也有阴极属性,我正在尝试应用PCA分析。对于cathegoric,我使用sklearn.preprocessing OneHotEncoder对其进行OneHot编码,但当我将矩阵应用于sklearn.decomposition PCA时,会产生以下错误:

类型错误:PCA不支持稀疏输入。有关可能的替代方案,请参见截断SVD

我想使用PCA,因为我的数据除了要进行OneHot编码的分类外,还有数字属性。我可以将SciPy稀疏矩阵转换为稠密NumPy数组,并将其附加到我的df中(我不知道它是否能提供令人满意的结果,因为我不太懂统计学),但我想知道是否有一种方法可以将稀疏矩阵直接应用于PCA,以防遇到更大的数据集

进一步资料:

我正在使用“马腹痛数据集”

你可以在这里下载:http://networkrepository.com/horse-colic.php

数据目录可在此处获得:https://archive.ics.uci.edu/ml/datasets/Horse+Colic


Tags: 数据类型编码属性错误矩阵数字sklearn