8.1 评估范式
Pointwise / Pairwise / Listwise 三种 Judge 范式,Reference-based 与 Reference-free 的选择
三种评分范式
LLM 裁判的核心设计选择是每次让裁判看几个候选答案,输出什么结构。从这个维度出发,业界收敛到三种范式:单点评分(Pointwise)、成对比较(Pairwise) 与列表排序(Listwise)。它们在成本、方差、可解释性上各有取舍。
Pointwise:单点评分
给裁判一个回答(可选附参考答案),要求在预定义量表上打分。量表可以是:
- Likert 1–5:最经典,人类容易校准。
- 1–10 分:MT-Bench 的默认设置,粒度更细但噪声更大。
- 通过/失败二分类:用于安全与合规等强约束任务。
- 多维度评分:例如
{helpfulness, correctness, relevance}各 1–5。
典型代表:
- G-Eval(Liu et al., 2023):对 NLG 输出做 CoT + 表单填写式打分,在摘要任务上与人类评分 Spearman 相关系数 0.514。
- GEMBA-DA(Kocmi & Federmann, 2023):翻译质量直评,0–100 分。
- Prometheus(Kim et al., 2024):开源裁判模型,按 5 级 rubric 打分并生成自然语言理据。
优点:成本低(每次推理一次),可用均值/方差描述整体分布,适合大规模监控。
缺点:绝对分数方差大——不同 prompt、不同批次下的 5 分含义可能不同,单点评分难以稳定校准。
Pairwise:成对比较
给裁判两个回答(A、B),让它判断 A 赢 / B 赢 / 平局。Chatbot Arena 和 MT-Bench 都采用此模式。
成对比较的理论基础是 Bradley-Terry 偏好模型:
其中 是两个模型的潜在实力分。用大量两两对比数据拟合出每个模型的 ,就得到了 ELO 或 Arena Score。
优点:人类和 LLM 都更擅长"两个里挑一个"而不是"给 7 分还是 8 分",相对判断的一致性显著高于绝对评分。
缺点:
- 成本翻倍:每次需要两次生成 + 一次 Judge。
- O(n²) 配对爆炸:评估 个模型需要 对,通过 Swiss-system 或自适应采样缓解。
- 位置偏差凸显:LLM 对出现在 "Answer A" 位置的回答有系统性偏好(见 8.3)。
Listwise:列表排序
给裁判三个以上候选,输出排序或同时打分。RAG 检索排序、重排序(reranking)、教育作业批改等场景常用。
给定 5 个候选翻译,按忠实度从高到低排序:
[候选1, 候选3, 候选5, 候选2, 候选4]优点:一次看到全局信息,适合排序敏感任务;信息利用率高。
缺点:
- 上下文长度压力:N 个候选 × 每个的长度,容易触顶。
- 位置偏差更严重:LLM 对"列表前部"的偏好在 N=10 时远强于 N=2。
- 输出解析脆弱:要求模型输出严格 JSON/排序列表,需要强约束 + 校验。
Reference-based vs. Reference-free
与上面的范式正交,另一个维度是是否给裁判参考答案。
| 维度 | Reference-based | Reference-free |
|---|---|---|
| 是否需要金标 | ✅ 需要 | ❌ 不需要 |
| 典型任务 | 机器翻译、摘要、QA | 对话、创意写作、开放式推理 |
| 评分维度 | 相对参考的忠实度、覆盖度 | 自洽性、helpfulness、无害性 |
| 可靠性 | 高(有锚点) | 依赖 Judge 能力 |
| 缓解自偏爱 | ✅ 可显著缓解 | ❌ 容易放大 |
| 代表方法 | GEMBA-MQM、AutoMQM | G-Eval、MT-Bench、AlpacaEval |
经验法则:能做 Reference-based 就做 Reference-based。参考答案不需要完美,只需提供一个锚点让裁判对齐评分尺度。一条由强模型生成并人工抽检的参考答案,往往比复杂的 rubric 更能稳定分数。
如何选型
下面是一张实用的决策表:
| 任务场景 | 推荐范式 | 推荐模式 | 理由 |
|---|---|---|---|
| 模型版本迭代 A/B 对比 | Pairwise | Reference-free | 只关心"哪个更好",方差最小 |
| 大规模线上质量监控 | Pointwise | Reference-based | 绝对分便于设阈值报警 |
| RLHF 偏好数据采集 | Pairwise | Reference-free | 直接产出 DPO/PPO 需要的 preference pair |
| RAG 段落相关性重排 | Listwise | Reference-free | 排序敏感,一次看全局 |
| 翻译质量细粒度诊断 | Pointwise + 错误跨度 | Reference-based | 需定位错误位置(见 GEMBA-MQM) |
| 开放式对话(MT-Bench 类) | Pairwise 为主 + Pointwise 辅助 | Reference-free | 对话无标准答案 |
| 代码功能正确性 | 单元测试 + Pointwise | Reference-based | 先测试后裁判 |
本节小结
- Pointwise 便宜、可聚合,但方差大;适合大规模监控。
- Pairwise 方差小、相关性高,但成本翻倍且位置偏差凸显;适合偏好采集与排行榜。
- Listwise 信息最全,但长度受限、偏差重;适合排序敏感任务。
- Reference-based 几乎永远更稳;参考答案只是"锚点",不必完美。
- 下一节我们进入具体的 Prompt 设计与技术。