8.3 偏差与缓解

位置、冗长、自偏爱、格式、美学等典型偏差，以及 swap、normalize、reference-based、专门训练等缓解手段

为什么 Judge 会有偏差

LLM 裁判不是公正的评估器，它是一个被提示的语言模型。它的偏差有三个根源：

预训练语料偏差：LLM 见过的网络文本本身就偏好长、有结构、带标题的内容。
指令微调偏差：RLHF 奖励模型偏好助人、礼貌、详尽的回复，这种偏好被继承到 Judge 里。
同源偏差：GPT-4 Judge 评分 GPT-4 生成的回答时会给更高分——熟悉即偏爱。

Zheng et al. (2023) 识别了三大基础偏差（位置、冗长、自偏爱），后续工作又扩展到近十种。本节梳理最重要的五类及其缓解手段。

位置偏差（Position Bias）

现象

在 Pairwise 评估中，LLM 系统性地偏好出现在第一位（Answer A）的回答。Wang et al. (ACL 2024) 量化显示，GPT-3.5 在某些任务上的位置偏差率高达 25%——即交换 A/B 位置会改变裁决。即便 GPT-4，也有 5–15% 的位置依赖。

机制假设

语言模型在长上下文中对前部内容的注意力分配更高。
指令微调让模型偏好 "先看到的标准"，把后续内容当成对照。

缓解

三件套：swap、平均、丢弃不一致。

Swap 双跑：A/B 交换位置各跑一次，仅当两次判断一致（去除位置因素）才采信，否则标记为 tie 或加权投票。该方法可将位置偏差从 20% 降到 5% 以下。
Logit 平均：取 P(A) + P(B reversed) 的平均作为最终概率，而不是硬判。
分批轮询：在 Listwise 中，对同一组候选生成多个打乱顺序的 prompt，取多数决。

冗长偏差（Verbosity Bias）

现象

LLM 裁判偏好更长的回答，即便两者信息量相同。Zheng et al. (2025) 在 "Justice or Prejudice" 基准上量化：人为把回答拉长 30%（不增加新信息），Judge 分数平均上升 0.3–0.7 分（1–10 量表）。

缓解

Length-normalize：在 rubric 中显式惩罚冗长："回答超过 N 字且无新增信息，总分减 1"。
Length-controlled AlpacaEval：Dubois et al. (2024) 用回归模型剥离长度效应，在 AlpacaEval 2 中把 Spearman 相关从 0.91 提升到 0.98。
比率而非绝对长度：在多维评分中加 "信息密度 = 信息量 / 长度" 维度。

数学上，length-controlled 的思路是拟合一个残差：

s_{\text{LC}} = s_{\text{raw}} - \beta \cdot \log(\text{len}) + \epsilon

其中 $\beta$ 由 Judge 在等质量不同长度样本上的回归系数估计。

自偏爱（Self-Preference Bias）

现象

Panickssery et al. (2024) 与 Stureborg et al. (2024) 表明：LLM 给自己（或同家族模型）生成的回答打更高分。

Stureborg et al. 进一步发现一个更底层的驱动因素——熟悉度偏差：LLM 对困惑度（perplexity）较低的输出给予更高分数，无论是否为自身生成。Li et al. (2025) 把这一污染形式化为 "偏好泄露"（Preference Leakage）：当 Judge 使用的模型家族与被评 SFT/DPO 数据来源相同时，评估会系统性高估。

缓解

方法	原理
使用 Reference-based	参考答案是锚点，把主观直觉替换成相对忠实度
Judge 与被评模型异构	用 GPT-4 评 Qwen，Claude 评 GPT，避免同家族
Judge 集成	多家族 Judge 投票平均掉各自的自偏爱
反事实校准	对同一回答换个风格重测，看 Judge 是否一致
专门训练	Prometheus / JudgeLM 这类蒸馏 Judge 有意降低自偏爱

生产教训：千万不要用训 RLHF 所用的同一个 Reward Model（或同家族 Judge）去最终评估模型——你会得到漂亮的数字和悲剧的线上效果。

格式偏差（Format Bias）

现象

LLM 偏好有结构的回答：项目符号、标题、表格、代码块。即便自由行文的信息量更高，结构化回答往往得分更高。

缓解

Rubric 显式说明："不因格式奖惩，关注内容"。
去格式化预处理：评估前把 Markdown 渲染为纯文本。
对齐风格：若任务本应是口语化回复（如客服），在 rubric 里明确排斥项目符号。

美学/风格偏差（Beauty / Style Bias）

不仅是格式——Judge 还偏好语气自信、语法工整、辞藻华丽的表达。一个事实正确但措辞朴素的回答，常常输给一个措辞漂亮但有事实错误的回答。RM-Bench（Liu et al., ICLR 2025）专门量化了这种 "style 压倒 correctness" 的失败模式。

缓解

事实校验前置：对可验证的任务（数学、代码），先跑客观测试，Judge 只评主观维度。
对抗样本诊断：故意构造 "漂亮但错" vs "朴素但对"，测量 Judge 能否识别。
专门训练的评判器：Prometheus 2 在训练中包含了大量 "style vs. substance" 对照对。

其他常见偏差

下面几类偏差发生频率较低但在特定场景会放大。

锚定效应：前一个样本的分数影响后一个（Koo et al., 2023）。缓解：独立批次、随机顺序。
从众效应（Bandwagon）：Prompt 中暗示 "多数人偏好 A" 会让 Judge 倒向 A。缓解：禁止在 Prompt 中提及其他意见。
权威偏差：回答中虚构引用（"据《Nature》2024 报道…"）会让 Judge 分数虚高。缓解：要求 Judge 核查引用真实性。
谬误忽视：Judge 常识别不出 CoT 中的逻辑错误，被"看起来合理"的推理链蒙蔽。缓解：Chain-of-Judges 分步推理 + 事实校验。
对抗攻击：Raina et al. (2024) 证明可以通过特殊构造的 token 序列让 Judge 给出指定分数。高风险场景需要专门的 Judge Robustness 评估。

系统性缓解框架

对一个生产级 Judge，应当把偏差缓解当作流水线而不是单点修复：

每个环节都有约 2-10% 的偏差削减，叠加起来能把 Judge-人类相关性从 0.5 推到 0.75+。

偏差诊断清单

在把一个 Judge 上线前，强制跑一遍下面这份"偏差健康检查"：

诊断项	方法	通过标准
位置偏差	Swap 100 对，统计不一致率	`< 10%`
冗长偏差	人为拉长回答 30% 无新信息	分数涨幅 `< 0.3`（5 分量表）
自偏爱	同家族 vs. 异家族模型对比	家族效应 `< 5%` 胜率差
格式偏差	同内容分别用项目符号 / 散文呈现	分数差 `< 0.2`
人类对齐	100 对人工双标	Cohen's $\kappa \ge 0.6$

本节小结

偏差	缓解手段	降幅（经验值）
位置	Swap + 不一致丢弃	20% → 5%
冗长	Length-control 回归	相关性提升 0.05–0.1
自偏爱	异构 Judge + Reference-based	5–15% → 2%
格式	Rubric 显式约束 + 去格式化	基本可消除
美学	事实校验前置 + 专门训练	显著但难以完全消除

没有万能解药。Judge 的可靠性最终由与人类标注的相关系数决定，而这个相关系数只能通过持续的人工抽检来维护。下一节看看这些技术是如何在 MT-Bench、AlpacaEval 等主流基准中落地的。

On this page