人工智能实践(语言智能)
第2讲:Transformer

2.6 预训练范式

MLM / CLM / Denoising / Prefix LM 四类预训练目标,Chinchilla 数据规模律,以及从预训练到后训练的过渡

预训练:让模型"先读遍世界"

预训练(pre-training)的核心假设是:把模型放到海量无标注文本上自监督学习,它能学到语言的结构、世界的知识、甚至一定的推理模式,然后只需少量标注数据微调(fine-tuning)就能迁移到下游任务。

这条假设在 2018 年 BERT 和 GPT 同时验证——从此 NLP 的技术路线分成两段:

  1. 预训练:在几百 GB ~ 几十 TB 的语料上训练几千亿 token
  2. 后训练(post-training):用指令、偏好、工具反馈等信号把模型对齐到具体用法(参见姊妹课程

本节讲第一段:四种预训练目标的数学形式、训练信号差异,以及数据规模律。

目标一:MLM(Masked Language Modeling)

代表:BERT(2018)。

流程:随机把输入 15% 的 token 替换成 [MASK],让模型预测被掩蔽的 token。在这 15% 中:

  • 80% 真的替换为 [MASK]
  • 10% 替换为随机 token
  • 10% 保持原样

损失

LMLM=ExDtMlogPθ(xtxM)\mathcal{L}_{\text{MLM}} = -\mathbb{E}_{x \sim D} \sum_{t \in \mathcal{M}} \log P_\theta(x_t \mid x_{\setminus \mathcal{M}})

其中 M\mathcal{M} 是被掩蔽位置的集合,xMx_{\setminus \mathcal{M}} 是其余位置的 token。

训练信号:每个样本只有 15% 的 token 产生梯度——信号稀疏。但由于 Encoder 双向看上下文,每个被预测的 token 能利用全部可见上下文,信息密度高

扩展

  • RoBERTa:去掉 NSP(Next Sentence Prediction)、动态 masking、更多数据、更大 batch
  • ELECTRA:用"生成器 + 判别器"替代 MLM——让判别器判断每个 token 是原文还是生成的,100% token 都产生梯度,样本效率高 4 倍

目标二:CLM(Causal Language Modeling)

代表:GPT-1/2/3/4、LLaMA、Qwen、DeepSeek。

流程:从左到右依次预测下一个 token。

损失

LCLM=ExDt=1TlogPθ(xtx<t)\mathcal{L}_{\text{CLM}} = -\mathbb{E}_{x \sim D} \sum_{t=1}^{T} \log P_\theta(x_t \mid x_{<t})

训练信号每个 token 都产生梯度——信号最密集,这是 CLM 在数据效率上优于 MLM 的根本原因。缺点是每个预测只能看前面的 token,信息密度不如 MLM 高。

为什么最终 CLM 赢了

  1. 目标简单统一,扩展到万亿参数也不崩
  2. 生成能力天然获得——对话、CoT、Agent 都来自 CLM 的自回归
  3. 推理效率高(KV Cache、推测解码都只在 CLM 上有意义)
  4. 对齐工具链成熟(SFT / DPO / GRPO 全为 CLM 设计)

目标三:Denoising(去噪目标)

代表:T5(2019)、BART(2019)。

T5 的 Span Corruption

随机掩蔽连续的文本片段(而非单个 token),用 sentinel token 占位;Decoder 按顺序输出被掩蔽的片段。

原文:Thank you for inviting me to your party last week.
加噪:Thank you <X> me to your party <Y> week.
目标:<X> for inviting <Y> last </s>

T5 的关键贡献是把所有 NLP 任务都重写成"text-to-text":分类任务的输入是 "cola sentence: ...",输出是 "acceptable" / "unacceptable"。

BART 的多种噪声

BART 尝试了 5 种噪声函数:

  1. Token Masking(类似 BERT)
  2. Token Deletion(删除 token,让模型还原位置)
  3. Text Infilling(效果最好)——连续片段替换为单个 [MASK],让模型还原完整片段
  4. Sentence Permutation(打乱句子顺序)
  5. Document Rotation(文档循环移位)

训练信号

Denoising 结合了 MLM 和 CLM 的优点:Encoder 侧双向理解 + Decoder 侧生成重构。但引入了额外的 Encoder-Decoder 参数和工程复杂度。

目标四:Prefix LM(前缀语言模型)

代表:GLM(2020)、UniLM(2019)。

流程:把输入分成两段:前缀(context)和后缀(target)。前缀用双向注意力编码,后缀用因果注意力自回归生成。

损失:只在后缀部分计算 CLM 损失,前缀部分不算损失。

优势

  • 单一模型既能理解又能生成
  • 参数量比 Encoder-Decoder 少一半

为什么没流行起来:工程复杂度高于 Decoder-only,而性能优势没能拉开差距。在 2023 年后基本被放弃。

四种目标对比

目标掩码/结构梯度密度代表模型主要用途
MLM双向,掩 15%低(15%)BERT、RoBERTa理解任务
CLM因果高(100%)GPT、LLaMA生成任务
Denoising双向 Encoder + 因果 DecoderT5、BARTseq2seq
Prefix LM前缀双向 + 后缀因果GLM、UniLM理解+生成

数据规模律:Chinchilla 法则

问题:给定计算预算 CC 训练 LLM,参数量 NN 和训练 token 数 DD 应该如何分配?

Kaplan et al.(2020)的早期结论:参数量越大越好,数据量"差不多就行"。这导致 2020-2022 年业界普遍训练"参数巨大但数据欠缺"的模型(GPT-3:175B 参数但只训了 300B token)。

Hoffmann et al.(2022,Chinchilla)的反击:在相同计算量下,更小但训了更多 token 的模型性能更好。他们训练了一个 70B 参数、1.4T token 的 Chinchilla,在几乎所有基准上超过了 280B 参数、300B token 的 Gopher。

Chinchilla 给出的最优配比(近似):

D20ND^* \approx 20 \cdot N

每个参数应对应 20 个训练 token——这被称为 Chinchilla 最优点

模型参数量 N训练 tokens DD / N是否达到 Chinchilla 最优
GPT-3175B300B1.7数据严重不足
Chinchilla70B1.4T20最优
LLaMA 1 65B65B1.4T21.5接近最优
LLaMA 2 70B70B2.0T28.6略超最优
LLaMA 3 70B70B15T214远超最优——推理成本导向
Qwen3多尺寸>30T很大同上

为什么 LLaMA 3 要远超 Chinchilla 最优?

Chinchilla 回答的是"训练最省算力"的最优。但对商用大模型,推理成本才是真正的瓶颈——模型训练一次,要服务几亿次推理。把参数量压小、训练 token 堆到极限,虽然训练时多花算力,但推理成本永久受益

这就是"推理导向训练(inference-optimal training)"的逻辑:牺牲训练效率换推理效率。LLaMA-3-8B 在 15T token 上训练,是 Chinchilla 最优点(160B token)的近 100 倍。

本节要点:Chinchilla 法则仍然是理解 LLM 训练的起点,但不是终点。现代 LLM(LLaMA 3、Qwen3)都远超过 Chinchilla 最优点——数据比参数便宜,推理比训练贵

从预训练到后训练:这门课与姊妹课的分工

预训练完成后,模型具备"语言建模能力"——能流畅续写文本、具备常识,但还不会按照指令行动。把原始基座模型变成 ChatGPT / Claude 这样可用的对话助手,需要后训练(post-training)

  • 本课程(语言智能)重点在"接口化使用 + 工程落地"——第 3-4 讲讲 prompt 和 RAG(不改模型权重),第 5-6 讲讲数据工程与 SFT/LoRA(轻量微调),第 7-8 讲讲 Agent 和评估
  • 姊妹课程《大语言模型后训练实践》系统讲 SFT、DPO、GRPO 的数学原理与完整训练流程

本讲结束后,你应当建立起"Transformer 是引擎,预训练是燃料,后训练是方向盘"的整体图景。下一讲(提示词)开始,我们会把 Transformer 当作一个训练好的"黑盒接口"来使用——但每次看到 prompt 奏效或失效,都能回到本讲解释原因。

本节小结

要点内容
MLM双向掩蔽填空,理解任务最优,BERT 代表
CLM自回归下一 token,生成能力天然,GPT/LLaMA 代表
DenoisingEncoder-Decoder 组合,T5 代表
Prefix LM前缀双向+后缀因果,GLM 代表,已边缘化
Chinchilla 法则D20ND \approx 20 N,但 LLaMA 3 等为推理效率远超最优点
预训练 vs. 后训练预训练给能力,后训练给方向(对齐、指令、工具)

参考文献

  • Devlin et al. (2018) BERT: Pre-training of Deep Bidirectional Transformers
  • Radford et al. (2019) Language Models are Unsupervised Multitask Learners(GPT-2)
  • Raffel et al. (2019) Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(T5)
  • Lewis et al. (2019) BART: Denoising Sequence-to-Sequence Pre-training
  • Kaplan et al. (2020) Scaling Laws for Neural Language Models
  • Hoffmann et al. (2022) Training Compute-Optimal Large Language Models(Chinchilla)
  • Touvron et al. (2023) LLaMA / LLaMA 2