在给定阈值内提取高度相关变量的最佳方法是什么

2024-10-01 19:29:57 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个数据帧和成对相关计算

>>> df1 = pd.read_csv("/home/zebrafish/Desktop/stack.csv")
>>> df1.corr()
           GA        PN        PC       MBP        GR        AP
GA   1.000000  0.070541  0.259937 -0.452661  0.115722  0.268014
PN   0.070541  1.000000  0.512536  0.447831 -0.042238  0.263601
PC   0.259937  0.512536  1.000000  0.331354 -0.254312  0.958877
MBP -0.452661  0.447831  0.331354  1.000000 -0.467683  0.229870
GR   0.115722 -0.042238 -0.254312 -0.467683  1.000000 -0.248777
AP   0.268014  0.263601  0.958877  0.229870 -0.248777  1.000000
>>>

现在从这个相关矩阵中，我如何在上面的数据帧很小的情况下列出或提取高度相关的变量，所以很容易选择高度相关的变量，但是当数据集很大时，比如说4000 X 2000，那么我们如何使用python、pandas或numpy来实现这一点呢。在

更新

用建议的方法，我能够得到这个非常漂亮，但我的困惑仍然存在，它与编程部分无关，它与理论有关

^{pr2}$

例如，在下面给出的结果中，当我想删除显示相关性大于0.2的变量时，我们可以看到AP与给定阈值内的其余三个变量相关，而其余三个也与AP相关（尽管，0.2不代表高度相关的集合，但只是作为一个例子选择的）所以我可以根据什么来考虑一个变量高度相关或者仅仅是四个AP，GA，PN和PC之间的相关

    30      AP      GA  0.268014
    31      AP      PN  0.263601
    32      AP      PC  0.958877

谢谢

Tags： csv 数据 home read 高度 pd ap df1

1条回答

网友

1楼 · 发布于 2024-10-01 19:29:57

你可以试试这个

corr_val=0.01
df2 = df1.corr().unstack().reset_index()
df2[df2[0]>corr_val]

在给定阈值内提取高度相关变量的最佳方法是什么

更新

相关问题更多 >

编程相关推荐

热门问题

热门文章

在给定阈值内提取高度相关变量的最佳方法是什么

更新

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >