课程内容
9 讲课程,从经典任务到 Transformer,再到提示词、RAG、Agent、GEO
1
经典 NLP 任务
从词向量到序列标注再到生成任务,建立现代 NLP 任务的统一视角与评估方法。
文本表示分词序列标注生成与评估
2
Transformer 的基本原理与应用
由 RNN/CNN 的局限出发推导 Self-Attention,系统理解 Encoder/Decoder 架构与现代预训练范式。
Self-AttentionPositional EncodingBERT/GPT/T5预训练范式
3
提示词
掌握提示工程的原则与前沿方法,用 DSPy/TextGrad 把 prompt 作为可优化对象。
Zero/Few-shotCoTTree of ThoughtsDSPyTextGrad
4
RAG:检索增强生成
从检索到生成到评估,完整构建北大研究生手册问答系统。
BM25/向量检索分块索引评估PKU 手册 QA
5
数据工程
为大模型准备数据——从低资源语言合成到 SFT 格式规范,再到数据来源、质量过滤与合成扩增。
低资源合成SFT 数据准备数据来源质量过滤
6
大模型微调
动手完成一次 LoRA 微调,理解何时微调、如何微调,以及与 RAG/提示词的取舍。
SFTLoRA/QLoRATRL/LLaMA-Factory扩展到 RLHF
7
Agent
从经典 Agent 架构过渡到 LLM 驱动的自主系统,构建带工具与记忆的 Agent。
经典架构LLM Agent规划与工具多 Agent 协作
8
LLM as Judge
把 LLM 作为评估器使用:方法、偏差、可靠性,以及如何为自家系统搭 Judge 基线。
Judge 范式偏差与缓解评估基准应用案例
9
GEO:生成引擎优化
面向生成式搜索的内容优化新学科——策略、度量和真实案例。
GEO 基础优化策略效果评估案例分析
学习收获
让"语言智能"从抽象概念变成可交付的工程能力
🧩
打通 NLP 全景
从经典任务到 Transformer,再到提示词、RAG、Agent,建立完整技术栈
🔍
会做真实 RAG
以北大研究生手册为数据源,独立构建可交付的问答系统
🛠️
会做微调
准备 SFT 数据、LoRA 微调、评估并诊断失败案例
🤖
会构建 Agent 与 Judge
用工具调用与 LLM-as-Judge 把小想法做成可运行的智能体与评估器
技术栈
课程实验统一使用主流开源生态,聚焦原理而非框架差异
Hugging Face Transformers
PyTorch
LangChain / LlamaIndex
FAISS / Qdrant
TRL
LLaMA-Factory
DSPy
vLLM