为什么Pandas.Series.corr返回Nan而numpy或scipy计算一个数字?

2024-09-27 00:18:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图计算两个熊猫系列之间的相关性。这是我从numpy或scipy那里得到的:

scipy.stats.pearsonr(xfarines["400"].values, yfarines["PROTREF"].values)


(0.71564870605278108, 2.9185934338775347e-23)


pd.np.corrcoef(xfarines["400"].values, yfarines["PROTREF"].values)


array([[ 1.        ,  0.71564871],
   [ 0.71564871,  1.        ]])

但熊猫给我的是:

^{pr2}$

看看这个问题, pandas df.corr() returns NaN despite data fed having populated data 我检查数据类型是否正常,似乎是:

s.describe()

count    140.000000
mean       0.304078
std        0.057225
min        0.197300
25%        0.250300
50%        0.318500
75%        0.346850
max        0.408600
Name: 400, dtype: float64


yfarines["PROTREF"].describe()

count    140.000000
mean      12.619143
std        2.547644
min        7.600000
25%       10.975000
50%       12.100000
75%       14.590000
max       18.200000
Name: PROTREF, dtype: float64

所以我不明白问题从何而来?在


Tags: namedatacountscipyminmeanmaxstd
1条回答
网友
1楼 · 发布于 2024-09-27 00:18:17

奇怪的是你提到了numpy(v1.8.0),但是使用scipy导入,这可能有所不同。这就是纽比做的

>>> a
array([[ 3.00000000,  0.17157288],
       [ 3.00000000,  1.58578644],
       [ 3.00000000,  3.00000000],
       [ 3.00000000,  4.41421356],
       [ 3.00000000,  5.82842712]])
>>> np.corrcoef(a[:,0], a[:,1],rowvar=0, bias=0, ddof=None)
array([[ nan,  nan],
       [ nan,  1.00000000]]

也许更新版本的人可以确认它返回的内容,但至少对于一条垂直线的点来说,这就是给定的值。 水平线的点

^{pr2}$

相关问题 更多 >

    热门问题