人工智能实践(语言智能)
第2讲:Transformer

第2讲:Transformer 的基本原理与应用

由 RNN/CNN 的局限出发推导 Self-Attention,系统理解 Encoder/Decoder 架构与现代预训练范式

不只是"一种网络",更是"大模型范式的根"

Transformer 不是第 6 种新神经网络,它是把"序列建模"从序列递归改写为全对全注意力的范式革命。RNN 在时间维度上串行展开、CNN 靠卷积核滑窗聚合局部信息——这两类架构都把"远"与"近"区别对待。Transformer 把这条假设彻底推翻:任意两个位置之间的关系都由数据自己学出来,且可以在一次矩阵乘法里同时计算完毕。

正是这个看似简单的改写,解决了三个独立难题:(1)长距依赖无需绕过梯度消失;(2)训练可以在序列维度完全并行,把 GPU 利用率拉满;(3)同一套组件堆叠到 175B 参数也不崩。GPT、BERT、T5、LLaMA、Qwen、Claude ——今天所有被叫做"大模型"的东西,骨架都是这一篇 2017 年论文《Attention Is All You Need》里的那个 Block。

本讲的目标不是让你读完论文就行,而是让你推导公式、手写实现、看懂可视化。第 3 讲(提示词)要利用的就是本讲讲清楚的注意力机制和预训练目标;第 6 讲(大模型微调)要改的参数也正是本讲中的那几个投影矩阵。

学习目标

完成本讲后,你将能够:

  1. 解释 RNN/CNN 在长程依赖与并行化上的局限,并论证 Self-Attention 为何能同时解决二者
  2. 推导 Scaled Dot-Product Attention 的公式 Attention(Q,K,V)=softmax(QKdk)V\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V,并解释 dk\sqrt{d_k} 缩放的必要性
  3. 实现 Multi-Head Attention 的矩阵形式,并能估算 Transformer Block 的参数量
  4. 对比 Sinusoidal、Learned、RoPE、ALiBi 四种位置编码的差异与外推能力
  5. 区分 Encoder-only(BERT)、Decoder-only(GPT/LLaMA)、Encoder-Decoder(T5)三类架构与它们的掩码策略
  6. 理解 MLM、CLM、Denoising、Prefix LM 四类预训练目标与数据规模律之间的关系
  7. 完成 一次最小实现(MiniGPT 或 BERT 注意力可视化),把推导与代码闭环

学时分配

环节时长内容
讲授~90 分钟动机 / 自注意力 / 多头 / 位置编码 / 三类架构 / 预训练范式
上机实验~60 分钟MiniGPT 最小实现 或 BERT 多头注意力可视化(二选一)

本讲规划

参考材料

  • Vaswani et al. (2017) Attention Is All You Need,NeurIPS
  • Jay Alammar, The Illustrated Transformer(博客)
  • Sasha Rush, The Annotated Transformer(Harvard NLP)
  • Su et al. (2021) RoFormer: Enhanced Transformer with Rotary Position Embedding
  • Hoffmann et al. (2022) Training Compute-Optimal Large Language Models(Chinchilla)
  • Karpathy, nanoGPT(GitHub:minimal GPT 实现参照)

关键词

Self-Attention · Scaled Dot-Product · Multi-Head · Positional Encoding · RoPE · ALiBi · BERT · GPT · T5 · LLaMA · MLM · CLM · Denoising · Chinchilla