在给定阈值内提取高度相关变量的最佳方法是什么

2024-10-01 19:29:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数据帧和成对相关计算

>>> df1 = pd.read_csv("/home/zebrafish/Desktop/stack.csv")
>>> df1.corr()
           GA        PN        PC       MBP        GR        AP
GA   1.000000  0.070541  0.259937 -0.452661  0.115722  0.268014
PN   0.070541  1.000000  0.512536  0.447831 -0.042238  0.263601
PC   0.259937  0.512536  1.000000  0.331354 -0.254312  0.958877
MBP -0.452661  0.447831  0.331354  1.000000 -0.467683  0.229870
GR   0.115722 -0.042238 -0.254312 -0.467683  1.000000 -0.248777
AP   0.268014  0.263601  0.958877  0.229870 -0.248777  1.000000
>>> 

现在从这个相关矩阵中,我如何在上面的数据帧很小的情况下列出或提取高度相关的变量,所以很容易选择高度相关的变量,但是当数据集很大时,比如说4000 X 2000,那么我们如何使用python、pandas或numpy来实现这一点呢。在

更新

用建议的方法,我能够得到这个非常漂亮,但我的困惑仍然存在,它与编程部分无关,它与理论有关

^{pr2}$

例如,在下面给出的结果中,当我想删除显示相关性大于0.2的变量时,我们可以看到AP与给定阈值内的其余三个变量相关,而其余三个也与AP相关(尽管,0.2不代表高度相关的集合,但只是作为一个例子选择的)所以我可以根据什么来考虑一个变量高度相关或者仅仅是四个AP,GA,PN和PC之间的相关

    30      AP      GA  0.268014
    31      AP      PN  0.263601
    32      AP      PC  0.958877

谢谢


Tags: csv数据homeread高度pdapdf1

热门问题