用numpy计算成对互信息的最优方法

import numpy as np def calc_MI(X,Y,bins): c_XY = np.histogram2d(X,Y,bins)[0] c_X = np.histogram(X,bins)[0] c_Y = np.histogram(Y,bins)[0] H_X = shan_entropy(c_X) H_Y = shan_entropy(c_Y) H_XY = shan_entropy(c_XY) MI = H_X + H_Y - H_XY return MI def shan_entropy(c): c_normalized = c / float(np.sum(c)) c_normalized = c_normalized[np.nonzero(c_normalized)] H = -sum(c_normalized* np.log2(c_normalized)) return H A = np.array([[ 2.0, 140.0, 128.23, -150.5, -5.4 ], [ 2.4, 153.11, 130.34, -130.1, -9.5 ], [ 1.2, 156.9, 120.11, -110.45,-1.12 ]]) bins = 5 # ? n = A.shape[1] matMI = np.zeros((n, n)) for ix in np.arange(n): for jx in np.arange(ix+1,n): matMI[ix,jx] = calc_MI(A[:,ix], A[:,jx], bins)

1条回答

网友

1楼 · 发布于 2024-06-25 05:43:08

我不能建议对n*（n-1）/2上的外环进行更快的计算向量，但是calc_MI(x, y, bins)的实现可以简化如果您可以使用scipy版本0.13或scikit-learn。

在scipy 0.13中，lambda_参数被添加到^{} 此参数控制由函数计算的统计信息。如果使用lambda_="log-likelihood"（或lambda_=0），对数似然比被退回。这也常被称为G或G²统计。除了系数2*n（其中n是意外事故中的样本总数表），这是相互的信息。所以你可以实现calc_MI 作为：

from scipy.stats import chi2_contingency

def calc_MI(x, y, bins):
    c_xy = np.histogram2d(x, y, bins)[0]
    g, p, dof, expected = chi2_contingency(c_xy, lambda_="log-likelihood")
    mi = 0.5 * g / c_xy.sum()
    return mi

这与您的实现之间的唯一区别是实现使用自然对数而不是以2为底的对数（所以它用“nats”而不是“bits”来表示信息）。如果你真的更喜欢位，只要把mi除以log（2）。

如果您有（或可以安装）sklearn（即scikit learn），则可以使用 ^{}，并将calc_MI实现为：

from sklearn.metrics import mutual_info_score

def calc_MI(x, y, bins):
    c_xy = np.histogram2d(x, y, bins)[0]
    mi = mutual_info_score(None, None, contingency=c_xy)
    return mi

相关问题更多 >

编程相关推荐

热门问题

热门文章