稀疏矩阵上Jaccard距离的计算

3条回答

网友

1楼 · 编辑于 2024-06-02 21:05:20

这里是一个具有scikit-learn类API的解决方案。在

def pairwise_sparse_jaccard_distance(X, Y=None):
    """
    Computes the Jaccard distance between two sparse matrices or between all pairs in
    one sparse matrix.

    Args:
        X (scipy.sparse.csr_matrix): A sparse matrix.
        Y (scipy.sparse.csr_matrix, optional): A sparse matrix.

    Returns:
        numpy.ndarray: A similarity matrix.
    """

    if Y is None:
        Y = X

    assert X.shape[1] == Y.shape[1]

    X = X.astype(bool).astype(int)
    Y = Y.astype(bool).astype(int)

    intersect = X.dot(Y.T)

    x_sum = X.sum(axis=1).A1
    y_sum = Y.sum(axis=1).A1
    xx, yy = np.meshgrid(x_sum, y_sum)
    union = ((xx + yy).T - intersect)

    return (1 - intersect / union).A

以下是一些测试和基准测试：

^{pr2}$

断言所有结果近似相等

>>> custom_jaccard_distance = pairwise_sparse_jaccard_distance(X, Y)
>>> sklearn_jaccard_distance = pairwise_distances(X.todense(), Y.todense(), "jaccard")

>>> np.allclose(custom_jaccard_distance, sklearn_jaccard_distance)
True

基准运行时（来自Jupyer笔记本）

>>> %timeit pairwise_jaccard_index(X, Y)
795 ms ± 58.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

>>> %timeit 1 - pairwise_distances(X.todense(), Y.todense(), "jaccard")
14.7 s ± 694 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

网友

2楼 · 编辑于 2024-06-02 21:05:20

如果使用矩阵乘法计算集合交集，然后使用规则|union(a, b)| == |a| + |b| - |intersection(a, b)|来确定并集，则矢量化相对容易：

# Not actually necessary for sparse matrices, but it is for 
# dense matrices and ndarrays, if X.dtype is integer.
from __future__ import division

def pairwise_jaccard(X):
    """Computes the Jaccard distance between the rows of `X`.
    """
    X = X.astype(bool).astype(int)

    intrsct = X.dot(X.T)
    row_sums = intrsct.diagonal()
    unions = row_sums[:,None] + row_sums - intrsct
    dist = 1.0 - intrsct / unions
    return dist

注意转换为bool，然后是int，因为X的数据类型必须足够大，以累积两倍于最大行和的值，X的条目必须是零或一。这段代码的缺点是它在RAM上很重，因为unions和{}是密集矩阵。在

如果您只对小于某个截止值的距离感兴趣，epsilon，可以针对稀疏矩阵调整代码：

^{pr2}$

如果这仍然需要大量的RAM，您可以尝试在一个维度上进行向量化，在另一个维度上使用Python循环。在

网友

3楼 · 编辑于 2024-06-02 21:05:20

补充一句：我使用了上述方法的加权版本，其简单实现如下：

def pairwise_jaccard_sparse_weighted(csr, epsilon, weight):
    csr = scipy.sparse.csr_matrix(csr).astype(bool).astype(int)
    csr_w = csr * scipy.sparse.diags(weight)

    csr_rowsum = numpy.array(csr_w.sum(axis = 1)).flatten()
    intrsct = csr.dot(csr_w.T)

    rowsum_i = numpy.repeat(csr_rowsum, intrsct.getnnz(axis = 1))
    unions = rowsum_i + csr_rowsum[intrsct.indices] - intrsct.data
    dists = 1.0 - 1.0 * intrsct.data / unions

    mask = (dists > 0) & (dists <= epsilon)
    data = dists[mask]
    indices = intrsct.indices[mask]

    rownnz = numpy.add.reduceat(mask, intrsct.indptr[:-1])
    indptr = numpy.r_[0, numpy.cumsum(rownnz)]

    out = scipy.sparse.csr_matrix((data, indices, indptr), intrsct.shape)
    return out

我怀疑这是最有效的实现，但它比scipy.spatial.distance.jaccard中的密集实现快得多。在

相关问题更多 >

编程相关推荐

热门问题

热门文章