NDCG（标准化贴现收益）有缺陷吗？我已经计算了一些可供选择的排名质量指标，但我无法确定我的优劣

def dcg(relevances, rank=20): relevances = np.asarray(relevances)[:rank] n_relevances = len(relevances) if n_relevances == 0: return 0. discounts = np.log2(np.arange(n_relevances) + 2) return np.sum(relevances / discounts) def ndcg(relevances, rank=20): best_dcg = dcg(sorted(relevances, reverse=True), rank) if best_dcg == 0: return 0. return dcg(relevances, rank) / best_dcg

def ndcg2(relevances, rank=20): best_dcg = dcg(sorted(relevances, reverse=True), rank) worst_dcg=dcg(sorted(relevances, reverse=False),rank) if best_dcg == 0: return 0. return (dcg(relevances, rank)-worst_dcg) / (best_dcg-worst_dcg)

def ndcg3(relevances, rank=20): shuffled=np.copy(relevances) rands=[] for i in range(50): np.random.shuffle(shuffled) rands.append(dcg(shuffled,rank)) avg_rand_dcg=np.mean(np.asarray(rands)) return dcg(relevances, rank) / avg_rand_dcg

1条回答

网友

1楼 · 发布于 2024-10-04 09:28:30

一种可能误导你的想法是将NDCG标准化。通常，您需要对多个文档进行排序，但是您的NDCG会在较少的文档数量上被截断（例如NCDG@3). 在您的代码中，这由参数“rank”决定。在

假设您想用R=[1，2，3，4，0]对5个文档进行排序，然后计算NDCG@3。如果您的算法认为最佳顺序是[doc1，doc2，doc3，doc4，doc5]，那么您将得到：

NDCG@3 = DCG([1, 2, 3]) / DCG([4, 3, 2])

而不是

^{pr2}$

所以在某种意义上，NDCG（[1,2,3]）和NDCG（[1,2,3,4]）是不可比的。分子完全相同，但分母完全不同。如果你想让NDCG有一个直观的含义，你必须设置 “排名”小于或等于您的文档数。在

相关问题更多 >

编程相关推荐

热门问题

热门文章