第2讲:Transformer 的基本原理与应用
由 RNN/CNN 的局限出发推导 Self-Attention,系统理解 Encoder/Decoder 架构与现代预训练范式
不只是"一种网络",更是"大模型范式的根"
Transformer 不是第 6 种新神经网络,它是把"序列建模"从序列递归改写为全对全注意力的范式革命。RNN 在时间维度上串行展开、CNN 靠卷积核滑窗聚合局部信息——这两类架构都把"远"与"近"区别对待。Transformer 把这条假设彻底推翻:任意两个位置之间的关系都由数据自己学出来,且可以在一次矩阵乘法里同时计算完毕。
正是这个看似简单的改写,解决了三个独立难题:(1)长距依赖无需绕过梯度消失;(2)训练可以在序列维度完全并行,把 GPU 利用率拉满;(3)同一套组件堆叠到 175B 参数也不崩。GPT、BERT、T5、LLaMA、Qwen、Claude ——今天所有被叫做"大模型"的东西,骨架都是这一篇 2017 年论文《Attention Is All You Need》里的那个 Block。
本讲的目标不是让你读完论文就行,而是让你推导公式、手写实现、看懂可视化。第 3 讲(提示词)要利用的就是本讲讲清楚的注意力机制和预训练目标;第 6 讲(大模型微调)要改的参数也正是本讲中的那几个投影矩阵。
学习目标
完成本讲后,你将能够:
- 解释 RNN/CNN 在长程依赖与并行化上的局限,并论证 Self-Attention 为何能同时解决二者
- 推导 Scaled Dot-Product Attention 的公式 ,并解释 缩放的必要性
- 实现 Multi-Head Attention 的矩阵形式,并能估算 Transformer Block 的参数量
- 对比 Sinusoidal、Learned、RoPE、ALiBi 四种位置编码的差异与外推能力
- 区分 Encoder-only(BERT)、Decoder-only(GPT/LLaMA)、Encoder-Decoder(T5)三类架构与它们的掩码策略
- 理解 MLM、CLM、Denoising、Prefix LM 四类预训练目标与数据规模律之间的关系
- 完成 一次最小实现(MiniGPT 或 BERT 注意力可视化),把推导与代码闭环
学时分配
| 环节 | 时长 | 内容 |
|---|---|---|
| 讲授 | ~90 分钟 | 动机 / 自注意力 / 多头 / 位置编码 / 三类架构 / 预训练范式 |
| 上机实验 | ~60 分钟 | MiniGPT 最小实现 或 BERT 多头注意力可视化(二选一) |
本讲规划
2.1 为什么需要 Attention
RNN/LSTM 的串行瓶颈与梯度消失、CNN 的局部感受野;Attention 如何同时解决
2.2 Self-Attention
Scaled Dot-Product Attention 公式推导、矩阵视角、 缩放、数值小例子
2.3 Multi-Head 与 Block
多头为何好于单头、参数量估算、残差 + LayerNorm + FFN 构成 Block
2.4 位置编码
Sinusoidal、Learned、RoPE、ALiBi;外推能力与长上下文
2.5 三类架构
Encoder-only / Decoder-only / Encoder-Decoder 与掩码差异;模型选型表
2.6 预训练范式
MLM / CLM / Denoising / Prefix LM;Chinchilla 规模律;通往后训练
上机实验
二选一:100 行 PyTorch 实现 MiniGPT,或用 transformers 可视化 BERT 注意力
参考材料
- Vaswani et al. (2017) Attention Is All You Need,NeurIPS
- Jay Alammar, The Illustrated Transformer(博客)
- Sasha Rush, The Annotated Transformer(Harvard NLP)
- Su et al. (2021) RoFormer: Enhanced Transformer with Rotary Position Embedding
- Hoffmann et al. (2022) Training Compute-Optimal Large Language Models(Chinchilla)
- Karpathy, nanoGPT(GitHub:minimal GPT 实现参照)
关键词
Self-Attention · Scaled Dot-Product · Multi-Head · Positional Encoding · RoPE · ALiBi · BERT · GPT · T5 · LLaMA · MLM · CLM · Denoising · Chinchilla