为什么sklearn的train/test split plus PCA使我的标签不正确？

import pandas import sklearn.datasets from matplotlib import pyplot import seaborn def load_bc_as_dataframe(): data = sklearn.datasets.load_breast_cancer() df = pandas.DataFrame(data.data, columns=data.feature_names) df['diagnosis'] = pandas.Series(data.target_names[data.target]) return data.feature_names.tolist(), df feature_names, bc_data = load_bc_as_dataframe() from sklearn.model_selection import train_test_split # bc_train, _ = train_test_split(bc_data, test_size=0) bc_train = bc_data from sklearn.decomposition import PCA pca = PCA(n_components=2) bc_pca_raw = pca.fit_transform(bc_train[feature_names]) bc_pca = pandas.DataFrame(bc_pca_raw, columns=('PCA 1', 'PCA 2')) bc_pca['diagnosis'] = bc_train['diagnosis'] seaborn.scatterplot( data=bc_pca, x='PCA 1', y='PCA 2', hue='diagnosis', style='diagnosis' ) pyplot.show()

1条回答

网友

1楼 · 发布于 2024-09-28 20:17:33

这个问题有三个部分：

train_test_split()中的洗牌导致bc_train中的索引处于随机顺序（与行位置相比）。你知道吗
主成分分析对数值矩阵进行运算，有效地从输入中去除指标。创建新的DataFrame会重新创建顺序索引（与行位置相比）。你知道吗
现在我们在bc_train中有随机索引，在bc_pca中有顺序索引。当我做bc_pca['diagnosis'] = bc_train['diagnosis']时，bc_train是reindexed，有bc_pcas索引。这将重新排序bc_train数据，使其索引与bc_pca匹配

换句话说，当我用bc_pca['diagnosis']（即__setitem__()）赋值时，Pandas对索引进行左连接，而不是逐行复制（类似于^{}）。你知道吗

我不觉得这很直观，也找不到源代码以外的__setitem__()行为文档，但我希望这对更有经验的Pandas用户来说是有意义的，也许它是在一个我从未见过的更高级别的地方被记录的。你知道吗

有很多方法可以避免这种情况。我可以重置训练/测试数据的索引：

bc_train, _ = train_test_split(bc_data, test_size=0)
bc_train.reset_index(inplace=True)

或者，我可以从values成员分配：

bc_pca['diagnosis'] = bc_train['diagnosis'].values

在构建数据帧之前，我也可以做类似的事情（可以说更合理，因为PCA在bc_train[feature_names].values上有效地运行）。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章