第2讲：Transformer 的基本原理与应用

由 RNN/CNN 的局限出发推导 Self-Attention，系统理解 Encoder/Decoder 架构与现代预训练范式

不只是"一种网络"，更是"大模型范式的根"

Transformer 不是第 6 种新神经网络，它是把"序列建模"从序列递归改写为全对全注意力的范式革命。RNN 在时间维度上串行展开、CNN 靠卷积核滑窗聚合局部信息——这两类架构都把"远"与"近"区别对待。Transformer 把这条假设彻底推翻：任意两个位置之间的关系都由数据自己学出来，且可以在一次矩阵乘法里同时计算完毕。

正是这个看似简单的改写，解决了三个独立难题：（1）长距依赖无需绕过梯度消失；（2）训练可以在序列维度完全并行，把 GPU 利用率拉满；（3）同一套组件堆叠到 175B 参数也不崩。GPT、BERT、T5、LLaMA、Qwen、Claude ——今天所有被叫做"大模型"的东西，骨架都是这一篇 2017 年论文《Attention Is All You Need》里的那个 Block。

本讲的目标不是让你读完论文就行，而是让你推导公式、手写实现、看懂可视化。第 3 讲（提示词）要利用的就是本讲讲清楚的注意力机制和预训练目标；第 6 讲（大模型微调）要改的参数也正是本讲中的那几个投影矩阵。

学习目标

完成本讲后，你将能够：

解释 RNN/CNN 在长程依赖与并行化上的局限，并论证 Self-Attention 为何能同时解决二者
推导 Scaled Dot-Product Attention 的公式 $\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$ ，并解释 $\sqrt{d_k}$ 缩放的必要性
实现 Multi-Head Attention 的矩阵形式，并能估算 Transformer Block 的参数量
对比 Sinusoidal、Learned、RoPE、ALiBi 四种位置编码的差异与外推能力
区分 Encoder-only（BERT）、Decoder-only（GPT/LLaMA）、Encoder-Decoder（T5）三类架构与它们的掩码策略
理解 MLM、CLM、Denoising、Prefix LM 四类预训练目标与数据规模律之间的关系
完成一次最小实现（MiniGPT 或 BERT 注意力可视化），把推导与代码闭环

学时分配

环节	时长	内容
讲授	~90 分钟	动机 / 自注意力 / 多头 / 位置编码 / 三类架构 / 预训练范式
上机实验	~60 分钟	MiniGPT 最小实现或 BERT 多头注意力可视化（二选一）

Vaswani et al. (2017) Attention Is All You Need，NeurIPS
Jay Alammar, The Illustrated Transformer（博客）
Sasha Rush, The Annotated Transformer（Harvard NLP）
Su et al. (2021) RoFormer: Enhanced Transformer with Rotary Position Embedding
Hoffmann et al. (2022) Training Compute-Optimal Large Language Models（Chinchilla）
Karpathy, nanoGPT（GitHub：minimal GPT 实现参照）

关键词

Self-Attention · Scaled Dot-Product · Multi-Head · Positional Encoding · RoPE · ALiBi · BERT · GPT · T5 · LLaMA · MLM · CLM · Denoising · Chinchilla

不只是"一种网络"，更是"大模型范式的根"

学习目标

学时分配

本讲规划

2.1 为什么需要 Attention

2.2 Self-Attention

2.3 Multi-Head 与 Block

2.4 位置编码

2.5 三类架构

2.6 预训练范式

上机实验

参考材料

关键词

On this page