1.6 评估方法

指标	关注点	粒度	是否捕捉语义	典型任务
BLEU	n-gram 精确率	词	否	机器翻译
ROUGE-1/2/L	n-gram 召回率 / LCS	词	否	摘要
METEOR	含同义词的 F1	词	弱	翻译、摘要
chrF	字符 n-gram F1	字符	否	多语言 MT
BERTScore	上下文 embedding 匹配	token	强	生成任务通用副指标
COMET	监督学习的打分器	句	最强	WMT 翻译评估标准

语言模型评估：Perplexity

对语言模型本身（不是下游任务）的内在评估用 Perplexity（困惑度，PPL）：

\text{PPL}(D) = \exp\left(-\frac{1}{N} \sum_{i=1}^N \log P_\theta(x_i | x_{<i})\right)

直观： $\text{PPL} = k$ 意味着模型在每一步平均要在 $k$ 个 token 中"犹豫"。越小越好。

Perplexity 的能与不能：

能：衡量"语言模型在该语料上有多流畅"，比较同架构不同参数的模型
不能：比较不同 tokenizer 的模型（tokenizer 不同 PPL 不可比）、衡量下游任务能力
陷阱：低 PPL 不等于回答正确，甚至不等于有用——早期 GPT-3 在 Common Crawl 上 PPL 很低，但在指令跟随、事实问答上仍然很差

为什么字面指标"不衡量意义"

考虑一个场景：一个优秀的翻译模型输出："这只猫坐在垫子上"；参考译文是："那只猫坐在毯子上"。

从语义上看：几乎正确，只是指代和名词的细微差异
从 BLEU 看：unigram 匹配 3/6，bigram 匹配 1/5，分数会相当难看
从 BERTScore 看：会给一个相对高的分数，因为 embedding 捕捉到了近义

三个指标会给三个差距不小的分数，但谁最接近人类判断？

答案是：没有一个能完全替代人类。BLEU / ROUGE 会惩罚正确的改写；BERTScore / COMET 会掩盖事实性错误（模型输出语义相近但事实错误，embedding 仍然高）。任何一个严肃的评估报告都应该同时报告多个指标 + 关键样本的人工评估。

人工评估与 LLM-as-Judge 的铺垫

人工评估的黄金标准

真实场景的人工评估通常用成对比较（pairwise comparison）：

给标注员展示两个模型的输出 A 和 B（不告诉哪个是哪个）
标注员选择哪个更好，或标注为"同样好"
多个标注员交叉核对，用 Cohen's Kappa 或 Fleiss' Kappa 衡量一致性

成对比较比"给每个输出打 1-5 分"更稳定——人类对"谁更好"比对"绝对分数"的判断准得多。

LLM-as-Judge：把 GPT-4 当标注员

2023 年以来的新范式：直接让 GPT-4 / Claude 来扮演标注员，做成对比较或打分。

优势：

成本远低于人工（约 1/100 的价格）
可扩展性远高（一夜评估 10 万条）
在很多维度上与人工评分相关性 > 0.8

挑战：

位置偏差：LLM 倾向于偏好先给的那个
长度偏差：LLM 倾向于偏好更长的回复
风格偏差：LLM 倾向于偏好与自己风格一致的回复

LLM-as-Judge 是第 8 讲的核心主题。这里你需要理解的是：BLEU / ROUGE 再精巧，也无法替代"两个更懂语言的智能体在对比"这件事。从 2002 年 BLEU 诞生到 2023 年 LLM-as-Judge 崛起，NLP 评估走过了整整 20 年。

指标家族	代表	核心思想	局限
第一代 n-gram	BLEU、ROUGE、chrF	字面重合度	不懂同义、改写
第二代 embedding	BERTScore	上下文向量匹配	可能掩盖事实错误
第三代 learned	COMET、BLEURT	从人工标注学评估	需大规模标注数据
语言模型内在	Perplexity	平均预测难度	不等于下游任务能力
成对比较	人工 A/B、LLM-as-Judge	人类判断或 LLM 判断	人力成本、LLM 偏差

核心原则：字面指标"精确但失真"，语义指标"更准但昂贵"，人工/LLM-as-Judge"最准但成本高"——根据任务和预算组合使用，永远不要信一个数字。

评估比你想象的更难

生成指标：从字面到语义的三代演化

第一代：基于 n-gram 的字面指标

BLEU（Bilingual Evaluation Understudy）

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）

METEOR

chrF（character-F-score）

第二代：基于 embedding 的语义指标

BERTScore

第三代：学习的评估器

COMET、BLEURT

LLM-as-Judge

经典指标对比表

语言模型评估：Perplexity

为什么字面指标"不衡量意义"

人工评估与 LLM-as-Judge 的铺垫

人工评估的黄金标准

LLM-as-Judge：把 GPT-4 当标注员

评估设计的实用建议

多指标 + 不同家族

报告置信区间

保留人工评估小样本

定性分析

本节小结

On this page