第6讲：大模型微调

动手完成一次 LoRA 微调，理解何时微调、如何微调，以及与 RAG/提示词的取舍

微调不是唯一答案

"把模型微调一下"几乎是任何一个业务场景被提出后的第一句回答。但到了真实的工程环境，微调往往不是第一选择，甚至不是第二选择。提示词工程（Prompt Engineering）可以在零成本下解决 60% 的问题；检索增强生成（Retrieval-Augmented Generation, RAG）能处理另外 30% 涉及"私有知识"的场景；剩下约 10% 才是真正应当通过微调解决的问题——比如模型的输出风格（遵循企业品牌语气）、领域术语偏好（医学、法律、金融）、严格格式遵循（永远输出合法 JSON）、或者蒸馏 / 压缩（让小模型模仿大模型）。

本讲的第一任务，就是帮你建立"何时不该微调"的判断力。随后我们走完一个完整的 SFT 流水线——从 chat template 到掩码损失，再到参数高效微调（PEFT）、工具选型、显存估算，最后在单张 A100 上动手完成一次真正的 LoRA 微调。

本讲的边界：本讲聚焦于监督微调（Supervised Fine-Tuning, SFT）和参数高效微调两类最常用的方法。偏好对齐（RLHF / DPO / SimPO / ORPO）、推理强化学习（PPO / GRPO / RLVR）等更深入的后训练方法，属于姊妹课程大语言模型后训练实践的核心内容——本讲只做范式引入。

学习目标

完成本讲后，你将能够：

判断何时应选择微调——与 Prompt Engineering / RAG / In-context Learning 的取舍
完成一次 SFT：数据准备 → chat template → 损失函数 → 训练循环 → 评估
理解参数高效微调（PEFT）：LoRA / QLoRA / DoRA 的公式与显存差异
使用主流工具栈：Hugging Face TRL、LLaMA-Factory、Axolotl、unsloth
估算微调的算力与时间成本，选择合适的 GPU 等级
衔接到 RLHF / DPO / GRPO——详细内容跳转至姊妹课程「大语言模型后训练」

学时分配

环节	时长	内容
讲授	~80 分钟	决策 / SFT / PEFT / 工具 / 规模估算
上机实验	~100 分钟	LoRA 在单卡 A100 上微调 Qwen2.5-1.5B

完整后训练流水线：SFT → Reward Model / 偏好数据 → DPO / GRPO
Tülu 3 / Qwen3 / DeepSeek-R1 等工业级后训练方案的拆解
LLM-as-Judge 在后训练中的角色（与本课第 8 讲呼应）

参考材料

Hu et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685
Dettmers et al. (2023). QLoRA: Efficient Finetuning of Quantized LLMs. arXiv:2305.14314
Zhou et al. (2023). LIMA: Less Is More for Alignment. arXiv:2305.11206
Hugging Face TRL 文档：huggingface.co/docs/trl
LLaMA-Factory 文档：llamafactory.readthedocs.io

关键词

SFT · LoRA · QLoRA · TRL · LLaMA-Factory · Axolotl · unsloth · PEFT · Chat Template · Masked Loss · Gradient Checkpointing

微调不是唯一答案

学习目标

学时分配

课程内容

6.1 何时微调（决策树）

6.2 监督微调（SFT）

6.3 LoRA 与 QLoRA

6.4 工具选型

6.5 规模与显存

上机实验

本讲在全课程中的位置

进阶方向

参考材料

关键词

On this page