为什么？nltk.align.bleu峎.bleu出错了？

1条回答

网友

1楼 · 发布于 2024-09-25 18:23:39

似乎您在NLTK实现中发现了一个bug！此try-except在https://github.com/alvations/nltk/blob/develop/nltk/translate/bleu_score.py#L76处出错

长：

首先，让我们看看BLEU分数中的p_n是什么意思：

注意：

Papineni公式基于语料库级别的BLEU分数，而原生实现使用句子级别的BLEU分数（NLTK的最新版本包含一个遵循Papineni论文计算语料库级别BLEU的实现）。在
在多引用BLEU中，Count_match(ngram)是基于具有较高计数的引用的（参见https://github.com/alvations/nltk/blob/develop/nltk/translate/bleu_score.py#L270）。在

因此，默认的BLEU分数使用n=4，其中包括从unigram到4grams的unigram。对于每个ngram，让我们计算p_n：

>>> from collections import Counter
>>> from nltk import ngrams
>>> hyp = u"鉴于 美国 集 经济 与 贸易 最大 国于 一身 ， 上述 因素 直接 影响 着 世界 贸易 。".split()
>>> ref1 = u"这些 直接 影响 全球 贸易 和 美国 是 世界 上 最大 的 单一 的 经济 和 贸易商 。".split()
>>> ref2 = u"这些 直接 影响 全球 贸易 和 美国 是 世界 上 最大 的 单一 的 经济 和 贸易商 。".split()
# Calculate p_1, p_2, p_3 and p_4
>>> from nltk.translate.bleu_score import _modified_precision
>>> p_1 = _modified_precision([ref1, ref2], hyp, 1)
>>> p_2 = _modified_precision([ref1, ref2], hyp, 2)
>>> p_3 = _modified_precision([ref1, ref2], hyp, 3)
>>> p_4 = _modified_precision([ref1, ref2], hyp, 4)
>>> p_1, p_2, p_3, p_4
(Fraction(4, 9), Fraction(1, 17), Fraction(0, 1), Fraction(0, 1))

注意BLEU score中_modified_precision的最新版本，因为这个https://github.com/nltk/nltk/pull/1229一直使用Fraction而不是{}输出。现在，我们可以清楚地看到分子和分母。在

现在让我们验证一下来自_modified_precision的unigram的输出。在假设中，粗体字出现在参考文献中：

中国政府；

有9个令牌与1重叠，其中9个是重复出现的两次。在

^{pr2}$

现在让我们检查一下这些重叠词在参考文献中出现的次数。取来自不同引用的“组合”计数器的值作为p_1公式的分子。如果同一个单词出现在两个引用中，则取最大计数。在

>>> overlap_counts_in_ref1 = Counter({ng:ref1_unigram_counts[ng] for ng in set(hyp_unigram_counts.keys()).intersection(ref1_unigram_counts.keys())})
>>> overlap_counts_in_ref2 = Counter({ng:ref2_unigram_counts[ng] for ng in set(hyp_unigram_counts.keys()).intersection(ref1_unigram_counts.keys())})
>>> overlap_counts_in_ref1
Counter({(u'\u7f8e\u56fd',): 1, (u'\u76f4\u63a5',): 1, (u'\u7ecf\u6d4e',): 1, (u'\u5f71\u54cd',): 1, (u'\u3002',): 1, (u'\u6700\u5927',): 1, (u'\u4e16\u754c',): 1, (u'\u8d38\u6613',): 1})
>>> overlap_counts_in_ref2
Counter({(u'\u7f8e\u56fd',): 1, (u'\u76f4\u63a5',): 1, (u'\u7ecf\u6d4e',): 1, (u'\u5f71\u54cd',): 1, (u'\u3002',): 1, (u'\u6700\u5927',): 1, (u'\u4e16\u754c',): 1, (u'\u8d38\u6613',): 1})
>>> overlap_counts_in_ref1_ref2 = Counter()
>>> numerator = overlap_counts_in_ref1_ref2
>>> 
>>> for c in [overlap_counts_in_ref1, overlap_counts_in_ref2]:
...     for k in c:
...             numerator[k] = max(numerator.get(k,0), c[k])
... 
>>> numerator
Counter({(u'\u7f8e\u56fd',): 1, (u'\u76f4\u63a5',): 1, (u'\u7ecf\u6d4e',): 1, (u'\u5f71\u54cd',): 1, (u'\u3002',): 1, (u'\u6700\u5927',): 1, (u'\u4e16\u754c',): 1, (u'\u8d38\u6613',): 1})
>>> sum(numerator.values())
8

现在对于分母来说，只是假设中出现的单数形式：

>>> hyp_unigram_counts
Counter({(u'\u8d38\u6613',): 2, (u'\u4e0e',): 1, (u'\u7f8e\u56fd',): 1, (u'\u56fd\u4e8e',): 1, (u'\u7740',): 1, (u'\u7ecf\u6d4e',): 1, (u'\u5f71\u54cd',): 1, (u'\u56e0\u7d20',): 1, (u'\u4e16\u754c',): 1, (u'\u3002',): 1, (u'\u4e00\u8eab',): 1, (u'\u6700\u5927',): 1, (u'\u9274\u4e8e',): 1, (u'\u4e0a\u8ff0',): 1, (u'\u96c6',): 1, (u'\u76f4\u63a5',): 1, (u'\uff0c',): 1})
>>> sum(hyp_unigram_counts.values())
18

因此得到的分数是8/18 -> 4/9，我们的_modified_precision函数可以检查出来。在

现在让我们来看看完整的BLEU公式：

根据这个公式，我们现在只考虑求和的指数，即exp(...)。它也可以简化为我们之前计算的各种p_n的对数之和，即sum(log(p_n))。这就是它在NLTK中的实现方式，参见https://github.com/alvations/nltk/blob/develop/nltk/translate/bleu_score.py#L79

暂时忽略BP，让我们考虑将p_n相加并考虑它们各自的权重：

>>> from fractions import Fraction
>>> from math import log
>>> log(Fraction(4, 9))
-0.8109302162163288
>>> log(Fraction(1, 17))
-2.833213344056216
>>> log(Fraction(0, 1))
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ValueError: math domain error

啊哈！这就是出现错误的地方，当将日志放入math.fsum()时，这些日志的总和将返回一个ValueError。在

>>> try:
...     sum(log(pi) for pi in (Fraction(4, 9), Fraction(1, 17), Fraction(0, 1), Fraction(0, 1)))
... except ValueError:
...     0
... 
0

要更正实现，the try-except应该是：

s = []
# Calculates the overall modified precision for all ngrams.
# by summing the the product of the weights and the respective log *p_n*
for w, p_n in zip(weights, p_ns)):
    try:
        s.append(w * math.log(p_n))
    except ValueError:
        # some p_ns is 0
        s.append(0)
 return sum(s)

参考文献：

公式来自于描述BLEU的一些敏感性问题的http://lotus.kuee.kyoto-u.ac.jp/WAT/papers/submissions/W15/W15-5009.pdf。在

相关问题更多 >

编程相关推荐

热门问题

热门文章