人工智能实践(语言智能)
第6讲:大模型微调

第6讲:大模型微调

动手完成一次 LoRA 微调,理解何时微调、如何微调,以及与 RAG/提示词的取舍

微调不是唯一答案

"把模型微调一下"几乎是任何一个业务场景被提出后的第一句回答。但到了真实的工程环境,微调往往不是第一选择,甚至不是第二选择。提示词工程(Prompt Engineering)可以在零成本下解决 60% 的问题;检索增强生成(Retrieval-Augmented Generation, RAG)能处理另外 30% 涉及"私有知识"的场景;剩下约 10% 才是真正应当通过微调解决的问题——比如模型的输出风格(遵循企业品牌语气)、领域术语偏好(医学、法律、金融)、严格格式遵循(永远输出合法 JSON)、或者蒸馏 / 压缩(让小模型模仿大模型)。

本讲的第一任务,就是帮你建立"何时不该微调"的判断力。随后我们走完一个完整的 SFT 流水线——从 chat template 到掩码损失,再到参数高效微调(PEFT)、工具选型、显存估算,最后在单张 A100 上动手完成一次真正的 LoRA 微调。

本讲的边界:本讲聚焦于监督微调(Supervised Fine-Tuning, SFT)和参数高效微调两类最常用的方法。偏好对齐(RLHF / DPO / SimPO / ORPO)、推理强化学习(PPO / GRPO / RLVR)等更深入的后训练方法,属于姊妹课程 大语言模型后训练实践 的核心内容——本讲只做范式引入。

学习目标

完成本讲后,你将能够:

  1. 判断 何时应选择微调——与 Prompt Engineering / RAG / In-context Learning 的取舍
  2. 完成 一次 SFT:数据准备 → chat template → 损失函数 → 训练循环 → 评估
  3. 理解 参数高效微调(PEFT):LoRA / QLoRA / DoRA 的公式与显存差异
  4. 使用 主流工具栈:Hugging Face TRL、LLaMA-Factory、Axolotl、unsloth
  5. 估算 微调的算力与时间成本,选择合适的 GPU 等级
  6. 衔接 到 RLHF / DPO / GRPO——详细内容跳转至姊妹课程「大语言模型后训练」

学时分配

环节时长内容
讲授~80 分钟决策 / SFT / PEFT / 工具 / 规模估算
上机实验~100 分钟LoRA 在单卡 A100 上微调 Qwen2.5-1.5B

课程内容

本讲在全课程中的位置

第 5 讲教你"做出好的 SFT 数据",本讲教你"用这些数据正确地微调"。如果你的目标是让模型在偏好对齐可验证奖励的推理任务上进一步提升,请继续跳转到姊妹课程。

进阶方向

偏好对齐(DPO / SimPO / KTO / ORPO)与推理强化学习(PPO / GRPO / RLVR)属于姊妹课程 大语言模型后训练实践 的核心。那门课在本讲结束的位置继续深入:

  • 完整后训练流水线:SFT → Reward Model / 偏好数据 → DPO / GRPO
  • Tülu 3 / Qwen3 / DeepSeek-R1 等工业级后训练方案的拆解
  • LLM-as-Judge 在后训练中的角色(与本课第 8 讲呼应)

参考材料

关键词

SFT · LoRA · QLoRA · TRL · LLaMA-Factory · Axolotl · unsloth · PEFT · Chat Template · Masked Loss · Gradient Checkpointing