人工智能实践(语言智能)
第8讲:LLM as Judge

8.3 偏差与缓解

位置、冗长、自偏爱、格式、美学等典型偏差,以及 swap、normalize、reference-based、专门训练等缓解手段

为什么 Judge 会有偏差

LLM 裁判不是公正的评估器,它是一个被提示的语言模型。它的偏差有三个根源:

  1. 预训练语料偏差:LLM 见过的网络文本本身就偏好长、有结构、带标题的内容。
  2. 指令微调偏差:RLHF 奖励模型偏好助人、礼貌、详尽的回复,这种偏好被继承到 Judge 里。
  3. 同源偏差:GPT-4 Judge 评分 GPT-4 生成的回答时会给更高分——熟悉即偏爱。

Zheng et al. (2023) 识别了三大基础偏差(位置、冗长、自偏爱),后续工作又扩展到近十种。本节梳理最重要的五类及其缓解手段。

位置偏差(Position Bias)

现象

在 Pairwise 评估中,LLM 系统性地偏好出现在第一位(Answer A)的回答。Wang et al. (ACL 2024) 量化显示,GPT-3.5 在某些任务上的位置偏差率高达 25%——即交换 A/B 位置会改变裁决。即便 GPT-4,也有 5–15% 的位置依赖。

机制假设

  • 语言模型在长上下文中对前部内容的注意力分配更高。
  • 指令微调让模型偏好 "先看到的标准",把后续内容当成对照。

缓解

三件套:swap、平均、丢弃不一致。

  1. Swap 双跑:A/B 交换位置各跑一次,仅当两次判断一致(去除位置因素)才采信,否则标记为 tie 或加权投票。该方法可将位置偏差从 20% 降到 5% 以下。
  2. Logit 平均:取 P(A) + P(B reversed) 的平均作为最终概率,而不是硬判。
  3. 分批轮询:在 Listwise 中,对同一组候选生成多个打乱顺序的 prompt,取多数决。

冗长偏差(Verbosity Bias)

现象

LLM 裁判偏好更长的回答,即便两者信息量相同。Zheng et al. (2025) 在 "Justice or Prejudice" 基准上量化:人为把回答拉长 30%(不增加新信息),Judge 分数平均上升 0.3–0.7 分(1–10 量表)。

缓解

  1. Length-normalize:在 rubric 中显式惩罚冗长:"回答超过 N 字且无新增信息,总分减 1"。
  2. Length-controlled AlpacaEval:Dubois et al. (2024) 用回归模型剥离长度效应,在 AlpacaEval 2 中把 Spearman 相关从 0.91 提升到 0.98。
  3. 比率而非绝对长度:在多维评分中加 "信息密度 = 信息量 / 长度" 维度。

数学上,length-controlled 的思路是拟合一个残差:

sLC=srawβlog(len)+ϵs_{\text{LC}} = s_{\text{raw}} - \beta \cdot \log(\text{len}) + \epsilon

其中 β\beta 由 Judge 在等质量不同长度样本上的回归系数估计。

自偏爱(Self-Preference Bias)

现象

Panickssery et al. (2024) 与 Stureborg et al. (2024) 表明:LLM 给自己(或同家族模型)生成的回答打更高分

Stureborg et al. 进一步发现一个更底层的驱动因素——熟悉度偏差:LLM 对困惑度(perplexity)较低的输出给予更高分数,无论是否为自身生成。Li et al. (2025) 把这一污染形式化为 "偏好泄露"(Preference Leakage):当 Judge 使用的模型家族与被评 SFT/DPO 数据来源相同时,评估会系统性高估。

缓解

方法原理
使用 Reference-based参考答案是锚点,把主观直觉替换成相对忠实度
Judge 与被评模型异构用 GPT-4 评 Qwen,Claude 评 GPT,避免同家族
Judge 集成多家族 Judge 投票平均掉各自的自偏爱
反事实校准对同一回答换个风格重测,看 Judge 是否一致
专门训练Prometheus / JudgeLM 这类蒸馏 Judge 有意降低自偏爱

生产教训:千万不要用训 RLHF 所用的同一个 Reward Model(或同家族 Judge)去最终评估模型——你会得到漂亮的数字和悲剧的线上效果。

格式偏差(Format Bias)

现象

LLM 偏好有结构的回答:项目符号、标题、表格、代码块。即便自由行文的信息量更高,结构化回答往往得分更高。

缓解

  • Rubric 显式说明:"不因格式奖惩,关注内容"。
  • 去格式化预处理:评估前把 Markdown 渲染为纯文本。
  • 对齐风格:若任务本应是口语化回复(如客服),在 rubric 里明确排斥项目符号。

美学/风格偏差(Beauty / Style Bias)

不仅是格式——Judge 还偏好语气自信、语法工整、辞藻华丽的表达。一个事实正确但措辞朴素的回答,常常输给一个措辞漂亮但有事实错误的回答。RM-Bench(Liu et al., ICLR 2025)专门量化了这种 "style 压倒 correctness" 的失败模式。

缓解

  • 事实校验前置:对可验证的任务(数学、代码),先跑客观测试,Judge 只评主观维度。
  • 对抗样本诊断:故意构造 "漂亮但错" vs "朴素但对",测量 Judge 能否识别。
  • 专门训练的评判器:Prometheus 2 在训练中包含了大量 "style vs. substance" 对照对。

其他常见偏差

下面几类偏差发生频率较低但在特定场景会放大。

  • 锚定效应:前一个样本的分数影响后一个(Koo et al., 2023)。缓解:独立批次、随机顺序。
  • 从众效应(Bandwagon):Prompt 中暗示 "多数人偏好 A" 会让 Judge 倒向 A。缓解:禁止在 Prompt 中提及其他意见。
  • 权威偏差:回答中虚构引用("据《Nature》2024 报道…")会让 Judge 分数虚高。缓解:要求 Judge 核查引用真实性。
  • 谬误忽视:Judge 常识别不出 CoT 中的逻辑错误,被"看起来合理"的推理链蒙蔽。缓解:Chain-of-Judges 分步推理 + 事实校验。
  • 对抗攻击:Raina et al. (2024) 证明可以通过特殊构造的 token 序列让 Judge 给出指定分数。高风险场景需要专门的 Judge Robustness 评估。

系统性缓解框架

对一个生产级 Judge,应当把偏差缓解当作流水线而不是单点修复:

每个环节都有约 2-10% 的偏差削减,叠加起来能把 Judge-人类相关性从 0.5 推到 0.75+。

偏差诊断清单

在把一个 Judge 上线前,强制跑一遍下面这份"偏差健康检查":

诊断项方法通过标准
位置偏差Swap 100 对,统计不一致率< 10%
冗长偏差人为拉长回答 30% 无新信息分数涨幅 < 0.3(5 分量表)
自偏爱同家族 vs. 异家族模型对比家族效应 < 5% 胜率差
格式偏差同内容分别用项目符号 / 散文呈现分数差 < 0.2
人类对齐100 对人工双标Cohen's κ0.6\kappa \ge 0.6

本节小结

偏差缓解手段降幅(经验值)
位置Swap + 不一致丢弃20% → 5%
冗长Length-control 回归相关性提升 0.05–0.1
自偏爱异构 Judge + Reference-based5–15% → 2%
格式Rubric 显式约束 + 去格式化基本可消除
美学事实校验前置 + 专门训练显著但难以完全消除

没有万能解药。Judge 的可靠性最终由与人类标注的相关系数决定,而这个相关系数只能通过持续的人工抽检来维护。下一节看看这些技术是如何在 MT-Bench、AlpacaEval 等主流基准中落地的。