我有一个数据帧和成对相关计算
>>> df1 = pd.read_csv("/home/zebrafish/Desktop/stack.csv")
>>> df1.corr()
GA PN PC MBP GR AP
GA 1.000000 0.070541 0.259937 -0.452661 0.115722 0.268014
PN 0.070541 1.000000 0.512536 0.447831 -0.042238 0.263601
PC 0.259937 0.512536 1.000000 0.331354 -0.254312 0.958877
MBP -0.452661 0.447831 0.331354 1.000000 -0.467683 0.229870
GR 0.115722 -0.042238 -0.254312 -0.467683 1.000000 -0.248777
AP 0.268014 0.263601 0.958877 0.229870 -0.248777 1.000000
>>>
现在从这个相关矩阵中,我如何在上面的数据帧很小的情况下列出或提取高度相关的变量,所以很容易选择高度相关的变量,但是当数据集很大时,比如说4000 X 2000,那么我们如何使用python、pandas或numpy来实现这一点呢。在
用建议的方法,我能够得到这个非常漂亮,但我的困惑仍然存在,它与编程部分无关,它与理论有关
^{pr2}$例如,在下面给出的结果中,当我想删除显示相关性大于0.2的变量时,我们可以看到AP与给定阈值内的其余三个变量相关,而其余三个也与AP相关(尽管,0.2不代表高度相关的集合,但只是作为一个例子选择的)所以我可以根据什么来考虑一个变量高度相关或者仅仅是四个AP,GA,PN和PC之间的相关
30 AP GA 0.268014
31 AP PN 0.263601
32 AP PC 0.958877
谢谢
你可以试试这个
相关问题 更多 >
编程相关推荐