我正在寻找Pandas.corr()方法的帮助。
因此,我可以使用.corr()方法计算列的每个可能组合的热图:
corr = data.corr()
sns.heatmap(corr)
在我的23000列数据框中,它可能在宇宙的热死附近终止。
我还可以在值的子集之间进行更合理的关联
data2 = data[list_of_column_names]
corr = data2.corr(method="pearson")
sns.heatmap(corr)
我想做的是将20列的列表与整个数据集进行比较。normal.corr()函数可以提供20x20或23000x23000热图,但本质上我想要20x23000热图。
我怎样才能给我的相关性增加更多的特异性呢?
谢谢你的帮助!
列出所需的子集(在本例中是a、B和C),创建一个空数据框,然后使用嵌套循环将所需值填充到其中。
经过昨晚的努力,我得到了以下答案:
与其他答案类似,这将生成一个热图(见下文),但可以缩放该热图以允许20000x30矩阵,而无需计算整个20000x2000组合之间的相关性(因此终止速度更快)。
通常所有变量的相关系数成对计算最有意义。corr()是计算相关系数对(和所有对)的方便函数。 也只能对循环中指定的对使用scipy。
示例:
一对熊猫可能是:
-0.98782916114726194
在scipy中等效:
-0.98782916114726194
相关问题 更多 >
编程相关推荐