8.1 评估范式

Pointwise / Pairwise / Listwise 三种 Judge 范式，Reference-based 与 Reference-free 的选择

三种评分范式

LLM 裁判的核心设计选择是每次让裁判看几个候选答案，输出什么结构。从这个维度出发，业界收敛到三种范式：单点评分（Pointwise）、成对比较（Pairwise） 与列表排序（Listwise）。它们在成本、方差、可解释性上各有取舍。

给裁判一个回答（可选附参考答案），要求在预定义量表上打分。量表可以是：

典型代表：

G-Eval（Liu et al., 2023）：对 NLG 输出做 CoT + 表单填写式打分，在摘要任务上与人类评分 Spearman 相关系数 0.514。
GEMBA-DA（Kocmi & Federmann, 2023）：翻译质量直评，0–100 分。
Prometheus（Kim et al., 2024）：开源裁判模型，按 5 级 rubric 打分并生成自然语言理据。

优点：成本低（每次推理一次），可用均值/方差描述整体分布，适合大规模监控。

缺点：绝对分数方差大——不同 prompt、不同批次下的 5 分含义可能不同，单点评分难以稳定校准。

给裁判两个回答（A、B），让它判断 A 赢 / B 赢 / 平局。Chatbot Arena 和 MT-Bench 都采用此模式。

成对比较的理论基础是 Bradley-Terry 偏好模型：

P(A \succ B) = \frac{\exp(r_A)}{\exp(r_A) + \exp(r_B)}

其中 $r_A, r_B$ 是两个模型的潜在实力分。用大量两两对比数据拟合出每个模型的 $r_i$ ，就得到了 ELO 或 Arena Score。

优点：人类和 LLM 都更擅长"两个里挑一个"而不是"给 7 分还是 8 分"，相对判断的一致性显著高于绝对评分。

缺点：

给裁判三个以上候选，输出排序或同时打分。RAG 检索排序、重排序（reranking）、教育作业批改等场景常用。

给定 5 个候选翻译，按忠实度从高到低排序：
[候选1, 候选3, 候选5, 候选2, 候选4]

优点：一次看到全局信息，适合排序敏感任务；信息利用率高。

缺点：

与上面的范式正交，另一个维度是是否给裁判参考答案。

经验法则：能做 Reference-based 就做 Reference-based。参考答案不需要完美，只需提供一个锚点让裁判对齐评分尺度。一条由强模型生成并人工抽检的参考答案，往往比复杂的 rubric 更能稳定分数。

下面是一张实用的决策表：

任务场景	推荐范式	推荐模式	理由
模型版本迭代 A/B 对比	Pairwise	Reference-free	只关心"哪个更好"，方差最小
大规模线上质量监控	Pointwise	Reference-based	绝对分便于设阈值报警
RLHF 偏好数据采集	Pairwise	Reference-free	直接产出 DPO/PPO 需要的 preference pair
RAG 段落相关性重排	Listwise	Reference-free	排序敏感，一次看全局
翻译质量细粒度诊断	Pointwise + 错误跨度	Reference-based	需定位错误位置（见 GEMBA-MQM）
开放式对话（MT-Bench 类）	Pairwise 为主 + Pointwise 辅助	Reference-free	对话无标准答案
代码功能正确性	单元测试 + Pointwise	Reference-based	先测试后裁判

\text{Judge 设计} = \underbrace{\text{范式}}_{\text{Point/Pair/List}} \times \underbrace{\text{参考}}_{\text{Ref-based/free}} \times \underbrace{\text{输出}}_{\text{分数/标签/排序}}