Python的互信息实现

2条回答

网友

1楼 · 编辑于 2024-06-28 11:22:43

下面的代码应该提供一个结果：0.00011053558610110256

c=np.concatenate([np.ones(49), np.zeros(27652), np.ones(141), np.zeros(774106) ])
t=np.concatenate([np.ones(49), np.ones(27652), np.zeros(141), np.zeros(774106)])

computeMI(c,t)

网友

2楼 · 编辑于 2024-06-28 11:22:43

我今天遇到了同样的问题。经过几次试验，我发现了真正的原因：如果严格遵循NLP教程，就要学习log2，但是sklearn.metrics.mutual_info_score使用自然对数（以e为基数，欧拉数）。我没有在sklearn文档中找到这个细节。。。

我的确认人是：

import numpy as np
def computeMI(x, y):
    sum_mi = 0.0
    x_value_list = np.unique(x)
    y_value_list = np.unique(y)
    Px = np.array([ len(x[x==xval])/float(len(x)) for xval in x_value_list ]) #P(x)
    Py = np.array([ len(y[y==yval])/float(len(y)) for yval in y_value_list ]) #P(y)
    for i in xrange(len(x_value_list)):
        if Px[i] ==0.:
            continue
        sy = y[x == x_value_list[i]]
        if len(sy)== 0:
            continue
        pxy = np.array([len(sy[sy==yval])/float(len(y))  for yval in y_value_list]) #p(x,y)
        t = pxy[Py>0.]/Py[Py>0.] /Px[i] # log(P(x,y)/( P(x)*P(y))
        sum_mi += sum(pxy[t>0]*np.log2( t[t>0]) ) # sum ( P(x,y)* log(P(x,y)/( P(x)*P(y)) )
    return sum_mi

如果你把这个np.log2改成np.log，我想它会给你和sklearn一样的答案。唯一的区别是，当这个方法返回0时，sklearn将返回一个非常接近0的数字。（当然，如果不关心日志库，可以使用sklearn，我的代码只是用于演示，性能很差…）

仅供参考，1）sklearn.metrics.mutual_info_score接受列表和np.array；2）sklearn.metrics.cluster.entropy也使用log，而不是log2

编辑：至于“同一个结果”，我不知道你到底是什么意思。一般来说，向量中的值并不重要，重要的是值的“分布”。你关心的是P（X=X），P（Y=Y）和P（X=X，Y=Y），而不是X，Y的值

相关问题更多 >

编程相关推荐

热门问题

热门文章