2.6 预训练范式

MLM / CLM / Denoising / Prefix LM 四类预训练目标，Chinchilla 数据规模律，以及从预训练到后训练的过渡

预训练：让模型"先读遍世界"

预训练（pre-training）的核心假设是：把模型放到海量无标注文本上自监督学习，它能学到语言的结构、世界的知识、甚至一定的推理模式，然后只需少量标注数据微调（fine-tuning）就能迁移到下游任务。

这条假设在 2018 年 BERT 和 GPT 同时验证——从此 NLP 的技术路线分成两段：

预训练：在几百 GB ~ 几十 TB 的语料上训练几千亿 token
后训练（post-training）：用指令、偏好、工具反馈等信号把模型对齐到具体用法（参见姊妹课程）

本节讲第一段：四种预训练目标的数学形式、训练信号差异，以及数据规模律。

目标一：MLM（Masked Language Modeling）

代表：BERT（2018）。

流程：随机把输入 15% 的 token 替换成 [MASK]，让模型预测被掩蔽的 token。在这 15% 中：

80% 真的替换为 [MASK]
10% 替换为随机 token
10% 保持原样

损失：

\mathcal{L}_{\text{MLM}} = -\mathbb{E}_{x \sim D} \sum_{t \in \mathcal{M}} \log P_\theta(x_t \mid x_{\setminus \mathcal{M}})

其中 $\mathcal{M}$ 是被掩蔽位置的集合， $x_{\setminus \mathcal{M}}$ 是其余位置的 token。

训练信号：每个样本只有 15% 的 token 产生梯度——信号稀疏。但由于 Encoder 双向看上下文，每个被预测的 token 能利用全部可见上下文，信息密度高。

扩展：

RoBERTa：去掉 NSP（Next Sentence Prediction）、动态 masking、更多数据、更大 batch
ELECTRA：用"生成器 + 判别器"替代 MLM——让判别器判断每个 token 是原文还是生成的，100% token 都产生梯度，样本效率高 4 倍

目标二：CLM（Causal Language Modeling）

代表：GPT-1/2/3/4、LLaMA、Qwen、DeepSeek。

流程：从左到右依次预测下一个 token。

损失：

\mathcal{L}_{\text{CLM}} = -\mathbb{E}_{x \sim D} \sum_{t=1}^{T} \log P_\theta(x_t \mid x_{<t})

训练信号：每个 token 都产生梯度——信号最密集，这是 CLM 在数据效率上优于 MLM 的根本原因。缺点是每个预测只能看前面的 token，信息密度不如 MLM 高。

为什么最终 CLM 赢了：

目标简单统一，扩展到万亿参数也不崩
生成能力天然获得——对话、CoT、Agent 都来自 CLM 的自回归
推理效率高（KV Cache、推测解码都只在 CLM 上有意义）
对齐工具链成熟（SFT / DPO / GRPO 全为 CLM 设计）

目标三：Denoising（去噪目标）

代表：T5（2019）、BART（2019）。

T5 的 Span Corruption

随机掩蔽连续的文本片段（而非单个 token），用 sentinel token 占位；Decoder 按顺序输出被掩蔽的片段。

原文：Thank you for inviting me to your party last week.
加噪：Thank you <X> me to your party <Y> week.
目标：<X> for inviting <Y> last </s>

T5 的关键贡献是把所有 NLP 任务都重写成"text-to-text"：分类任务的输入是 "cola sentence: ..."，输出是 "acceptable" / "unacceptable"。

BART 的多种噪声

BART 尝试了 5 种噪声函数：

Token Masking（类似 BERT）
Token Deletion（删除 token，让模型还原位置）
Text Infilling（效果最好）——连续片段替换为单个 [MASK]，让模型还原完整片段
Sentence Permutation（打乱句子顺序）
Document Rotation（文档循环移位）

训练信号

Denoising 结合了 MLM 和 CLM 的优点：Encoder 侧双向理解 + Decoder 侧生成重构。但引入了额外的 Encoder-Decoder 参数和工程复杂度。

目标四：Prefix LM（前缀语言模型）

代表：GLM（2020）、UniLM（2019）。

流程：把输入分成两段：前缀（context）和后缀（target）。前缀用双向注意力编码，后缀用因果注意力自回归生成。

损失：只在后缀部分计算 CLM 损失，前缀部分不算损失。

优势：

单一模型既能理解又能生成
参数量比 Encoder-Decoder 少一半

为什么没流行起来：工程复杂度高于 Decoder-only，而性能优势没能拉开差距。在 2023 年后基本被放弃。

四种目标对比

目标	掩码/结构	梯度密度	代表模型	主要用途
MLM	双向，掩 15%	低（15%）	BERT、RoBERTa	理解任务
CLM	因果	高（100%）	GPT、LLaMA	生成任务
Denoising	双向 Encoder + 因果 Decoder	中	T5、BART	seq2seq
Prefix LM	前缀双向 + 后缀因果	中	GLM、UniLM	理解+生成

数据规模律：Chinchilla 法则

问题：给定计算预算 $C$ 训练 LLM，参数量 $N$ 和训练 token 数 $D$ 应该如何分配？

Kaplan et al.（2020）的早期结论：参数量越大越好，数据量"差不多就行"。这导致 2020-2022 年业界普遍训练"参数巨大但数据欠缺"的模型（GPT-3：175B 参数但只训了 300B token）。

Hoffmann et al.（2022，Chinchilla）的反击：在相同计算量下，更小但训了更多 token 的模型性能更好。他们训练了一个 70B 参数、1.4T token 的 Chinchilla，在几乎所有基准上超过了 280B 参数、300B token 的 Gopher。

Chinchilla 给出的最优配比（近似）：

D^* \approx 20 \cdot N

即每个参数应对应 20 个训练 token——这被称为 Chinchilla 最优点。

模型	参数量 N	训练 tokens D	D / N	是否达到 Chinchilla 最优
GPT-3	175B	300B	1.7	数据严重不足
Chinchilla	70B	1.4T	20	最优
LLaMA 1 65B	65B	1.4T	21.5	接近最优
LLaMA 2 70B	70B	2.0T	28.6	略超最优
LLaMA 3 70B	70B	15T	214	远超最优——推理成本导向
Qwen3	多尺寸	>30T	很大	同上

为什么 LLaMA 3 要远超 Chinchilla 最优？

Chinchilla 回答的是"训练最省算力"的最优。但对商用大模型，推理成本才是真正的瓶颈——模型训练一次，要服务几亿次推理。把参数量压小、训练 token 堆到极限，虽然训练时多花算力，但推理成本永久受益。

这就是"推理导向训练（inference-optimal training）"的逻辑：牺牲训练效率换推理效率。LLaMA-3-8B 在 15T token 上训练，是 Chinchilla 最优点（160B token）的近 100 倍。

本节要点：Chinchilla 法则仍然是理解 LLM 训练的起点，但不是终点。现代 LLM（LLaMA 3、Qwen3）都远超过 Chinchilla 最优点——数据比参数便宜，推理比训练贵。

从预训练到后训练：这门课与姊妹课的分工

预训练完成后，模型具备"语言建模能力"——能流畅续写文本、具备常识，但还不会按照指令行动。把原始基座模型变成 ChatGPT / Claude 这样可用的对话助手，需要后训练（post-training）：

本课程（语言智能）重点在"接口化使用 + 工程落地"——第 3-4 讲讲 prompt 和 RAG（不改模型权重），第 5-6 讲讲数据工程与 SFT/LoRA（轻量微调），第 7-8 讲讲 Agent 和评估
姊妹课程《大语言模型后训练实践》系统讲 SFT、DPO、GRPO 的数学原理与完整训练流程

本讲结束后，你应当建立起"Transformer 是引擎，预训练是燃料，后训练是方向盘"的整体图景。下一讲（提示词）开始，我们会把 Transformer 当作一个训练好的"黑盒接口"来使用——但每次看到 prompt 奏效或失效，都能回到本讲解释原因。

本节小结

要点	内容
MLM	双向掩蔽填空，理解任务最优，BERT 代表
CLM	自回归下一 token，生成能力天然，GPT/LLaMA 代表
Denoising	Encoder-Decoder 组合，T5 代表
Prefix LM	前缀双向+后缀因果，GLM 代表，已边缘化
Chinchilla 法则	$D \approx 20 N$ ，但 LLaMA 3 等为推理效率远超最优点
预训练 vs. 后训练	预训练给能力，后训练给方向（对齐、指令、工具）

参考文献

Devlin et al. (2018) BERT: Pre-training of Deep Bidirectional Transformers
Radford et al. (2019) Language Models are Unsupervised Multitask Learners（GPT-2）
Raffel et al. (2019) Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer（T5）
Lewis et al. (2019) BART: Denoising Sequence-to-Sequence Pre-training
Kaplan et al. (2020) Scaling Laws for Neural Language Models
Hoffmann et al. (2022) Training Compute-Optimal Large Language Models（Chinchilla）
Touvron et al. (2023) LLaMA / LLaMA 2

On this page