LLM 指标 | PPL vs. BLEU vs. ROUGE-L vs. METEOR vs. CIDEr

技术分享 11个月前 (08-25) 0 999+

关注

LLM 指标 | PPL vs. BLEU vs. ROUGE-L vs. METEOR vs. CIDEr

困惑度（Perplexity, PPL）↓

PPL的意义非常明了，用于测量模型对生成文本的不确定程度，不确定程度越低，模型的表现就越好。其计算方法是计算句子每个token的平均对数似然，再过一个指数函数。

定义

给定一个长度为(n)的token序列：

[S=(w_1,w_2,cdots,w_n) ]

那么该序列的PPL为：

[PPL(S)=expbig(-frac{1}{N}sum^N_{i=1}log P(w_i|w_1,cdots,w_{i-1}big) ]

BLEU（Bilingual Evaluation Understudy）↑

BLEU出自文章BLEU: a Method for Automatic Evaluation of Machine Translation."
Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics，主要用以评估翻译任务中生成文本与参考文本的匹配程度。其更具体的形式BLEU@N用以定义在(1,2,cdots,N)-gram情况下，生成文本与参考文本的匹配程度，再通过一个长度惩罚项（brevity penalty, BP）避免模型的生成文本过短。

定义

给定生成文本为(C)，参考文本为({R_1,R_2,cdots,R_m})

首先我们定义modified n-gram precision：

给定N-gram (g_n)，(Count_S(g_n))表示在序列(S)中(g)出现的次数，那么我们可以定义modified N-gram precision：

[p_n = frac{sum_{g_nin C}min(Count_C(g_n), max_j Count_{R_i}(g_n))}{sum_{g_nin C}Count_C(g)} ]

通俗解释(p_n)定义了生成文本与参考文本之间的重叠程度，并且设定了每个词的出现次数上界为参考文本中出现次数上界。

接下来我们计算(1,2,cdots,N)-gram的几何平均值（通常取(n=1,2,3,4)）

有：

[P=exp(frac{1}{N}sum^N_{n=1}log p_n) ]

接下来计算长度惩罚项BP：

[text{BP} = begin{cases} 1 & text{if } c > r \[2mm] expleft(1 - frac{r}{c}right) & text{if } c leq r end{cases} ]

其中(c)为生成文本的长度，(r)为与生成文本(c)长度最接近的参考文本的长度

最后相乘得到BLEU：

[BLEU=Pcdot BP ]

ROUGE-L ↑

ROUGE-L（Recall-Oriented Understudy for Gisting Evaluation - LCS）通过计算最长公共子串LCS评估生成文本与参考文本之间的匹配程度，为此给定生成文本(C)和参考文本(R)，我们可以模仿混淆矩阵定义其precison，recall以及F1-score：

ROUGE- L Precison

[P_{LCS} = frac{LCS(C,R)}{|C|} ]

recall

[R_{LCS}=frac{LCS(C, R)}{|R|} ]

F1-scoure

[F_{LCS}=frac{2cdot R_{LCS}cdot {P_{LCS}}}{R_{LCS}+P_{LCS}} ]

METEOR

METEOR出自文章Meteor: An Automatic Metric for MT Evaluation with High Levels of Correlation with Human Judgments，为了解决BLEU指标不能处理非精确匹配以及语序不敏感的两个缺陷，加入了语义对齐以及碎片化惩罚因子两个步骤。