人工智能实践(语言智能)
第8讲:LLM as Judge

8.1 评估范式

Pointwise / Pairwise / Listwise 三种 Judge 范式,Reference-based 与 Reference-free 的选择

三种评分范式

LLM 裁判的核心设计选择是每次让裁判看几个候选答案,输出什么结构。从这个维度出发,业界收敛到三种范式:单点评分(Pointwise)成对比较(Pairwise)列表排序(Listwise)。它们在成本、方差、可解释性上各有取舍。

Pointwise:单点评分

给裁判一个回答(可选附参考答案),要求在预定义量表上打分。量表可以是:

  • Likert 1–5:最经典,人类容易校准。
  • 1–10 分:MT-Bench 的默认设置,粒度更细但噪声更大。
  • 通过/失败二分类:用于安全与合规等强约束任务。
  • 多维度评分:例如 {helpfulness, correctness, relevance} 各 1–5。

典型代表:

  • G-Eval(Liu et al., 2023):对 NLG 输出做 CoT + 表单填写式打分,在摘要任务上与人类评分 Spearman 相关系数 0.514。
  • GEMBA-DA(Kocmi & Federmann, 2023):翻译质量直评,0–100 分。
  • Prometheus(Kim et al., 2024):开源裁判模型,按 5 级 rubric 打分并生成自然语言理据。

优点:成本低(每次推理一次),可用均值/方差描述整体分布,适合大规模监控。

缺点绝对分数方差大——不同 prompt、不同批次下的 5 分含义可能不同,单点评分难以稳定校准。

Pairwise:成对比较

给裁判两个回答(A、B),让它判断 A 赢 / B 赢 / 平局。Chatbot Arena 和 MT-Bench 都采用此模式。

成对比较的理论基础是 Bradley-Terry 偏好模型

P(AB)=exp(rA)exp(rA)+exp(rB)P(A \succ B) = \frac{\exp(r_A)}{\exp(r_A) + \exp(r_B)}

其中 rA,rBr_A, r_B 是两个模型的潜在实力分。用大量两两对比数据拟合出每个模型的 rir_i,就得到了 ELO 或 Arena Score。

优点:人类和 LLM 都更擅长"两个里挑一个"而不是"给 7 分还是 8 分",相对判断的一致性显著高于绝对评分

缺点

  1. 成本翻倍:每次需要两次生成 + 一次 Judge。
  2. O(n²) 配对爆炸:评估 nn 个模型需要 (n2)\binom{n}{2} 对,通过 Swiss-system 或自适应采样缓解。
  3. 位置偏差凸显:LLM 对出现在 "Answer A" 位置的回答有系统性偏好(见 8.3)。

Listwise:列表排序

给裁判三个以上候选,输出排序或同时打分。RAG 检索排序、重排序(reranking)、教育作业批改等场景常用。

给定 5 个候选翻译,按忠实度从高到低排序:
[候选1, 候选3, 候选5, 候选2, 候选4]

优点:一次看到全局信息,适合排序敏感任务;信息利用率高。

缺点

  1. 上下文长度压力:N 个候选 × 每个的长度,容易触顶。
  2. 位置偏差更严重:LLM 对"列表前部"的偏好在 N=10 时远强于 N=2。
  3. 输出解析脆弱:要求模型输出严格 JSON/排序列表,需要强约束 + 校验。

Reference-based vs. Reference-free

与上面的范式正交,另一个维度是是否给裁判参考答案

维度Reference-basedReference-free
是否需要金标✅ 需要❌ 不需要
典型任务机器翻译、摘要、QA对话、创意写作、开放式推理
评分维度相对参考的忠实度、覆盖度自洽性、helpfulness、无害性
可靠性高(有锚点)依赖 Judge 能力
缓解自偏爱✅ 可显著缓解❌ 容易放大
代表方法GEMBA-MQM、AutoMQMG-Eval、MT-Bench、AlpacaEval

经验法则:能做 Reference-based 就做 Reference-based。参考答案不需要完美,只需提供一个锚点让裁判对齐评分尺度。一条由强模型生成并人工抽检的参考答案,往往比复杂的 rubric 更能稳定分数。

如何选型

下面是一张实用的决策表:

任务场景推荐范式推荐模式理由
模型版本迭代 A/B 对比PairwiseReference-free只关心"哪个更好",方差最小
大规模线上质量监控PointwiseReference-based绝对分便于设阈值报警
RLHF 偏好数据采集PairwiseReference-free直接产出 DPO/PPO 需要的 preference pair
RAG 段落相关性重排ListwiseReference-free排序敏感,一次看全局
翻译质量细粒度诊断Pointwise + 错误跨度Reference-based需定位错误位置(见 GEMBA-MQM)
开放式对话(MT-Bench 类)Pairwise 为主 + Pointwise 辅助Reference-free对话无标准答案
代码功能正确性单元测试 + PointwiseReference-based先测试后裁判

本节小结

Judge 设计=范式Point/Pair/List×参考Ref-based/free×输出分数/标签/排序\text{Judge 设计} = \underbrace{\text{范式}}_{\text{Point/Pair/List}} \times \underbrace{\text{参考}}_{\text{Ref-based/free}} \times \underbrace{\text{输出}}_{\text{分数/标签/排序}}
  • Pointwise 便宜、可聚合,但方差大;适合大规模监控。
  • Pairwise 方差小、相关性高,但成本翻倍且位置偏差凸显;适合偏好采集与排行榜。
  • Listwise 信息最全,但长度受限、偏差重;适合排序敏感任务。
  • Reference-based 几乎永远更稳;参考答案只是"锚点",不必完美。
  • 下一节我们进入具体的 Prompt 设计与技术