2.6 预训练范式
MLM / CLM / Denoising / Prefix LM 四类预训练目标,Chinchilla 数据规模律,以及从预训练到后训练的过渡
预训练:让模型"先读遍世界"
预训练(pre-training)的核心假设是:把模型放到海量无标注文本上自监督学习,它能学到语言的结构、世界的知识、甚至一定的推理模式,然后只需少量标注数据微调(fine-tuning)就能迁移到下游任务。
这条假设在 2018 年 BERT 和 GPT 同时验证——从此 NLP 的技术路线分成两段:
- 预训练:在几百 GB ~ 几十 TB 的语料上训练几千亿 token
- 后训练(post-training):用指令、偏好、工具反馈等信号把模型对齐到具体用法(参见姊妹课程)
本节讲第一段:四种预训练目标的数学形式、训练信号差异,以及数据规模律。
目标一:MLM(Masked Language Modeling)
代表:BERT(2018)。
流程:随机把输入 15% 的 token 替换成 [MASK],让模型预测被掩蔽的 token。在这 15% 中:
- 80% 真的替换为
[MASK] - 10% 替换为随机 token
- 10% 保持原样
损失:
其中 是被掩蔽位置的集合, 是其余位置的 token。
训练信号:每个样本只有 15% 的 token 产生梯度——信号稀疏。但由于 Encoder 双向看上下文,每个被预测的 token 能利用全部可见上下文,信息密度高。
扩展:
- RoBERTa:去掉 NSP(Next Sentence Prediction)、动态 masking、更多数据、更大 batch
- ELECTRA:用"生成器 + 判别器"替代 MLM——让判别器判断每个 token 是原文还是生成的,100% token 都产生梯度,样本效率高 4 倍
目标二:CLM(Causal Language Modeling)
代表:GPT-1/2/3/4、LLaMA、Qwen、DeepSeek。
流程:从左到右依次预测下一个 token。
损失:
训练信号:每个 token 都产生梯度——信号最密集,这是 CLM 在数据效率上优于 MLM 的根本原因。缺点是每个预测只能看前面的 token,信息密度不如 MLM 高。
为什么最终 CLM 赢了:
- 目标简单统一,扩展到万亿参数也不崩
- 生成能力天然获得——对话、CoT、Agent 都来自 CLM 的自回归
- 推理效率高(KV Cache、推测解码都只在 CLM 上有意义)
- 对齐工具链成熟(SFT / DPO / GRPO 全为 CLM 设计)
目标三:Denoising(去噪目标)
代表:T5(2019)、BART(2019)。
T5 的 Span Corruption
随机掩蔽连续的文本片段(而非单个 token),用 sentinel token 占位;Decoder 按顺序输出被掩蔽的片段。
原文:Thank you for inviting me to your party last week.
加噪:Thank you <X> me to your party <Y> week.
目标:<X> for inviting <Y> last </s>T5 的关键贡献是把所有 NLP 任务都重写成"text-to-text":分类任务的输入是 "cola sentence: ...",输出是 "acceptable" / "unacceptable"。
BART 的多种噪声
BART 尝试了 5 种噪声函数:
- Token Masking(类似 BERT)
- Token Deletion(删除 token,让模型还原位置)
- Text Infilling(效果最好)——连续片段替换为单个
[MASK],让模型还原完整片段 - Sentence Permutation(打乱句子顺序)
- Document Rotation(文档循环移位)
训练信号
Denoising 结合了 MLM 和 CLM 的优点:Encoder 侧双向理解 + Decoder 侧生成重构。但引入了额外的 Encoder-Decoder 参数和工程复杂度。
目标四:Prefix LM(前缀语言模型)
代表:GLM(2020)、UniLM(2019)。
流程:把输入分成两段:前缀(context)和后缀(target)。前缀用双向注意力编码,后缀用因果注意力自回归生成。
损失:只在后缀部分计算 CLM 损失,前缀部分不算损失。
优势:
- 单一模型既能理解又能生成
- 参数量比 Encoder-Decoder 少一半
为什么没流行起来:工程复杂度高于 Decoder-only,而性能优势没能拉开差距。在 2023 年后基本被放弃。
四种目标对比
| 目标 | 掩码/结构 | 梯度密度 | 代表模型 | 主要用途 |
|---|---|---|---|---|
| MLM | 双向,掩 15% | 低(15%) | BERT、RoBERTa | 理解任务 |
| CLM | 因果 | 高(100%) | GPT、LLaMA | 生成任务 |
| Denoising | 双向 Encoder + 因果 Decoder | 中 | T5、BART | seq2seq |
| Prefix LM | 前缀双向 + 后缀因果 | 中 | GLM、UniLM | 理解+生成 |
数据规模律:Chinchilla 法则
问题:给定计算预算 训练 LLM,参数量 和训练 token 数 应该如何分配?
Kaplan et al.(2020)的早期结论:参数量越大越好,数据量"差不多就行"。这导致 2020-2022 年业界普遍训练"参数巨大但数据欠缺"的模型(GPT-3:175B 参数但只训了 300B token)。
Hoffmann et al.(2022,Chinchilla)的反击:在相同计算量下,更小但训了更多 token 的模型性能更好。他们训练了一个 70B 参数、1.4T token 的 Chinchilla,在几乎所有基准上超过了 280B 参数、300B token 的 Gopher。
Chinchilla 给出的最优配比(近似):
即每个参数应对应 20 个训练 token——这被称为 Chinchilla 最优点。
| 模型 | 参数量 N | 训练 tokens D | D / N | 是否达到 Chinchilla 最优 |
|---|---|---|---|---|
| GPT-3 | 175B | 300B | 1.7 | 数据严重不足 |
| Chinchilla | 70B | 1.4T | 20 | 最优 |
| LLaMA 1 65B | 65B | 1.4T | 21.5 | 接近最优 |
| LLaMA 2 70B | 70B | 2.0T | 28.6 | 略超最优 |
| LLaMA 3 70B | 70B | 15T | 214 | 远超最优——推理成本导向 |
| Qwen3 | 多尺寸 | >30T | 很大 | 同上 |
为什么 LLaMA 3 要远超 Chinchilla 最优?
Chinchilla 回答的是"训练最省算力"的最优。但对商用大模型,推理成本才是真正的瓶颈——模型训练一次,要服务几亿次推理。把参数量压小、训练 token 堆到极限,虽然训练时多花算力,但推理成本永久受益。
这就是"推理导向训练(inference-optimal training)"的逻辑:牺牲训练效率换推理效率。LLaMA-3-8B 在 15T token 上训练,是 Chinchilla 最优点(160B token)的近 100 倍。
本节要点:Chinchilla 法则仍然是理解 LLM 训练的起点,但不是终点。现代 LLM(LLaMA 3、Qwen3)都远超过 Chinchilla 最优点——数据比参数便宜,推理比训练贵。
从预训练到后训练:这门课与姊妹课的分工
预训练完成后,模型具备"语言建模能力"——能流畅续写文本、具备常识,但还不会按照指令行动。把原始基座模型变成 ChatGPT / Claude 这样可用的对话助手,需要后训练(post-training):
- 本课程(语言智能)重点在"接口化使用 + 工程落地"——第 3-4 讲讲 prompt 和 RAG(不改模型权重),第 5-6 讲讲数据工程与 SFT/LoRA(轻量微调),第 7-8 讲讲 Agent 和评估
- 姊妹课程《大语言模型后训练实践》系统讲 SFT、DPO、GRPO 的数学原理与完整训练流程
本讲结束后,你应当建立起"Transformer 是引擎,预训练是燃料,后训练是方向盘"的整体图景。下一讲(提示词)开始,我们会把 Transformer 当作一个训练好的"黑盒接口"来使用——但每次看到 prompt 奏效或失效,都能回到本讲解释原因。
本节小结
| 要点 | 内容 |
|---|---|
| MLM | 双向掩蔽填空,理解任务最优,BERT 代表 |
| CLM | 自回归下一 token,生成能力天然,GPT/LLaMA 代表 |
| Denoising | Encoder-Decoder 组合,T5 代表 |
| Prefix LM | 前缀双向+后缀因果,GLM 代表,已边缘化 |
| Chinchilla 法则 | ,但 LLaMA 3 等为推理效率远超最优点 |
| 预训练 vs. 后训练 | 预训练给能力,后训练给方向(对齐、指令、工具) |
参考文献
- Devlin et al. (2018) BERT: Pre-training of Deep Bidirectional Transformers
- Radford et al. (2019) Language Models are Unsupervised Multitask Learners(GPT-2)
- Raffel et al. (2019) Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(T5)
- Lewis et al. (2019) BART: Denoising Sequence-to-Sequence Pre-training
- Kaplan et al. (2020) Scaling Laws for Neural Language Models
- Hoffmann et al. (2022) Training Compute-Optimal Large Language Models(Chinchilla)
- Touvron et al. (2023) LLaMA / LLaMA 2