详解机器翻译任务中的BLEU

admin • 2022-07-07 12:16 • 人工智能

一、

$n$ 元语法（n-gram）是指文本中连续出现的

$n$ 个词元。当

$n$ 分别为

1,2,3

$1, 2, 3$ 时，n-gram 又叫作 unigram（一元语法）、bigram（二元语法）和 trigram（三元语法）。

$n$ 元语法模型是基于

−

n-1

$n - 1$ 阶马尔可夫链的一种概率语言模型（即只考虑前

−

n-1

$n - 1$ 个词出现的情况下，后一个词出现的概率）：

unigram:

(

⋯

)

∏

(

)

bigram:

(

⋯

)

(

)

∏

−

(

∣

)

trigram:

(

⋯

)

(

)

(

∣

)

∏

−

(

∣

)

begin{aligned} text{unigram:}quad&P(w_1,w_2,cdots,w_T)=prod_{i=1}^T P(w_i) \ text{bigram:}quad&P(w_1,w_2,cdots,w_T)=P(x_1)prod_{i=1}^{T-1} P(w_{i+1}|w_i) \ text{trigram:}quad&P(w_1,w_2,cdots,w_T)=P(x_1)P(x_2|x_1)prod_{i=1}^{T-2} P(w_{i+2}|w_{i},w_{i+1}) \ end{aligned}

$unigram: bigram: trigram: P (w_{1}, w_{2}, \dots, w_{T}) = i = 1 \prod T P (w_{i}) P (w_{1}, w_{2}, \dots, w_{T}) = P (x_{1}) i = 1 \prod T - 1 P (w_{i + 1} ∣ w_{i}) P (w_{1}, w_{2}, \dots, w_{T}) = P (x_{1}) P (x_{2} ∣ x_{1}) i = 1 \prod T - 2 P (w_{i + 2} ∣ w_{i}, w_{i + 1})$

二、BLEU（Bilingual Evaluation Understudy）

2.1 BLEU 定义

BLEU（发音与单词 blue 相同）最早是用于评估机器翻译的结果，但现在它已经被广泛用于评估许多应用的输出序列的质量。对于预测序列 pred 中的任意

$n$ 元语法， BLEU 的评估都是这个

$n$ 元语法是否出现在标签序列 label 中。

BLEU 定义如下：

BLEU

exp

⁡

(

min

⁡

(

−

len(label)

len(pred)

)

∏

text{BLEU}=expleft(minleft(0,1-frac{text{len(label)}}{text{len(pred)}}right)right)prod_{n=1}^kp_n^{1/2^n}

$BLEU = exp (min (0, 1 - \frac{len(label)}{len(pred)})) n = 1 \prod k p_{n 1 / 2^{n}}$

其中

len(*)

text{len(*)}

$len(*)$ 代表序列

∗

$*$ 中的词元个数，

$k$ 用于匹配最长的

$n$ 元语法（常取

$4$ ），

p_n

$p_{n}$ 表示

$n$ 元语法的精确度。

具体而言，给定 label：

A,B,C,D,E,F

$A, B, C, D, E, F$ 和 pred：

A,B,B,C,D

$A, B, B, C, D$ ，取

k=3

$k = 3$ 。

首先看

p_1

$p_{1}$ 如何计算。我们先将 pred 中的每个 unigram 都统计出来：

(

)

(

)

(

)

(

)

(

)

(A),(B),(B),(C),(D)

$(A), (B), (B), (C), (D)$ ，再将 label 中的每个 unigram 都统计出来：

(

)

(

)

(

)

(

)

(

)

(

)

(A),(B),(C),(D),(E),(F)

$(A), (B), (C), (D), (E), (F)$ ，然后看它们之间有多少匹配的（不可以重复匹配，即必须保持一一对应的关系）。可以看出一共有

$4$ 个匹配的，而 pred 中一共有

$5$ 个 unigram，于是

p_1=4/5

$p_{1} = 4 / 5$ 。

再来看

p_2

$p_{2}$ 如何计算。我们先将 pred 中的每个 bigram 都统计出来：

(

)

(

)

(

)

(

)

(A,B),(B,B),(B,C),(C,D)

$(A, B), (B, B), (B, C), (C, D)$ ，再将 label 中的每个 bigram 都统计出来：

(

)

(

)

(

)

(

)

(

)

(A,B),(B,C),(C,D),(D,E),(E,F)

$(A, B), (B, C), (C, D), (D, E), (E, F)$ ，然后看它们之间有多少匹配的。可以看出一共有

$3$ 个匹配的，而 pred 中一共有

$4$ 个 bigram，于是

p_2=3/4

$p_{2} = 3 / 4$ 。

最后看

p_3

$p_{3}$ 如何计算。我们先将 pred 中的每个 trigram 都统计出来：

(

)

(

)

(

)

(A,B,B),(B,B,C),(B,C,D)

$(A, B, B), (B, B, C), (B, C, D)$ ，再将 label 中的每个 trigram 都统计出来：

(

)

(

)

(

)

(

)

(A,B,C),(B,C,D),(C,D,E),(D,E,F)

$(A, B, C), (B, C, D), (C, D, E), (D, E, F)$ ，然后看它们之间有多少匹配的。可以看出只有

$1$ 个匹配，而 pred 中一共有

$3$ 个 trigram，于是

p_3=1/3

$p_{3} = 1 / 3$ 。

因此此例的 BLEU 分数为

BLEU

exp

⁡

(

min

⁡

(

−

)

⋅

−

0.2

⋅

(

)

⋅

(

)

⋅

(

)

≈

0.5940

begin{aligned} text{BLEU}&=exp(min(0,1-6/5))cdot p_1^{1/2}cdot p_2^{1/4}cdot p_3^{1/8} \ &=e^{-0.2}cdot left(frac45right)^{1/2}cdot left(frac34right)^{1/4}cdotleft(frac13right)^{1/8} \ &approx0.5940 end{aligned}

$BLEU = exp (min (0, 1 - 6 / 5)) \cdot p_{1 1 / 2} \cdot p_{2 1 / 4} \cdot p_{3 1 / 8} = e^{- 0.2} \cdot (\frac{4}{5})^{1 / 2} \cdot (\frac{3}{4})^{1 / 4} \cdot (\frac{1}{3})^{1 / 8} \approx 0.5940$

2.2 BLEU 的探讨

根据 BLEU 的定义，当预测序列与标签序列完全相同时，BLEU 的值为

$1$ 。另一方面，由于

e^x>0

$e^{x} > 0$ 且

≥

p_ngeq0

$p_{n} \geq 0$ ，因此有

BLEU

∈

[

]

text{BLEU}in[0,1]

$BLEU \in [0, 1]$

BLEU 的值越接近

$1$ ，则代表预测效果越好；BLEU 的值越接近

$0$ ，则代表预测效果越差。

此外，由于

$n$ 元语法越长匹配难度越大，所以 BLEU 为更长的

$n$ 元语法的精确度分配更大的权重（固定

∈

(

)

ain(0,1)

$a \in (0, 1)$ ，则

a^{1/2^n}

$a^{1 / 2^{n}}$ 会随着

$n$ 的增加而增加）。而且，由于预测序列越短获得的

p_n

$p_{n}$ 值越高，所以系数

exp

⁡

(

⋅

)

exp(cdot)

$exp (\cdot)$ 这一项用于惩罚较短的预测序列。

2.3 BLEU 的简单实现

import math
from collections import Counter


def bleu(label, pred, k=4):
    # 我们假设输入的label和pred都已经进行了分词
    score = math.exp(min(0, 1 - len(label) / len(pred)))
    for n in range(1, k + 1):
        # 使用哈希表用来存放label中所有的n-gram
        hashtable = Counter([' '.join(label[i:i + n]) for i in range(len(label) - n + 1)])
        # 匹配成功的个数
        num_matches = 0
        for i in range(len(pred) - n + 1):
            ngram = ' '.join(pred[i:i + n])
            if ngram in hashtable and hashtable[ngram] > 0:
                num_matches += 1
                hashtable[ngram] -= 1
        score *= math.pow(num_matches / (len(pred) - n + 1), math.pow(0.5, n))
    return score

例如：

label = 'A B C D E F'
pred = 'A B B C D'
for i in range(4):
    print(bleu(label.split(), pred.split(), k=i + 1))
# 0.7322950476607851
# 0.6814773296495302
# 0.5940339360503315
# 0.0

References

[1] d2l. Sequence to Sequence Learning

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

BLEU 人工智能机器翻译深度学习自然语言处理

二维码

刨析《C语言》【进阶】付费知识【完结】

< <上一篇

NLP下的bert模型的一些学习

下一篇>>

搜索内容

详解机器翻译任务中的BLEU

目录

一、

二、BLEU（Bilingual Evaluation Understudy）

2.1 BLEU 定义

2.2 BLEU 的探讨

2.3 BLEU 的简单实现

References

最新文章

分类

标签云

详解机器翻译任务中的BLEU

目录

一、 n n n 元语法（N-Gram）

二、BLEU（Bilingual Evaluation Understudy）

2.1 BLEU 定义

2.2 BLEU 的探讨

2.3 BLEU 的简单实现

References

最新文章

分类

标签云

一、