第5讲:数据工程
为大模型准备数据——从常见数据来源到 SFT 格式规范、通用合成方法、低资源专题与质量过滤
引言:被低估的核心能力
在大模型时代,"数据工程"(Data Engineering)常常被视作训练流程中枯燥的"前处理"环节,但它恰恰是最被低估、也最能决定最终模型质量的能力。Tülu 3、LIMA、MAGPIE 等代表性工作反复证明:模型能力的天花板,往往不是由算法或参数量决定,而是由训练数据的质量、多样性与结构决定。在指令微调(SFT)阶段,1,000 条精选的高质量样本足以超越 50,000 条噪声样本训练出的模型(Zhou et al., 2023);而在低资源语言场景中,CIDAR 以 1 万条本地化样本击败了规模大 30 倍的翻译数据(Alyafeai et al., 2024)。
因此,做数据不是"洗数据",而是一条完整的工程管线:从数据来源选型、格式规范、合成扩增,到低资源专题、质量过滤,再到去污染与评估。本讲按照"来源 → 准备 → 合成 → 低资源专题 → 质量过滤"的顺序展开,让你既能为英语主流场景也能为中文、藏语、方言等中低资源场景构建高质量数据集。
学习目标
完成本讲后,你将能够:
- 导航 主流开源数据集(Alpaca、Dolly、Aya、UltraChat、HH-RLHF 等)并识别许可证陷阱
- 设计 可复用的 SFT 数据格式(ShareGPT / Alpaca / OpenAI messages / ChatML)与掩码损失
- 运用 通用合成方法(Self-Instruct、Evol-Instruct、MAGPIE、Persona-driven、Humpback)与 Judge 过滤
- 理解 低资源语言 SFT 数据合成的方法谱系:翻译法、跨语言迁移、原生标注、零种子、反向翻译、中转语言——及各自的权衡
- 过滤 数据质量:Perplexity、语义去重、毒性检测、多样性指标
- 独立交付 一个 500-1000 条规模的小型领域 SFT 数据集并配文档化的构建流程
学时分配
| 环节 | 时长 | 内容 |
|---|---|---|
| 讲授 | ~80 分钟 | 数据来源 / SFT 格式规范 / 合成数据 / 低资源合成 / 质量过滤 |
| 上机实验 | ~80 分钟 | 构建 500-1000 条的领域 SFT 数据集 |
课程内容
5.1 常见数据来源
五类来源、主流开源数据集清单(英语主流 + 多语低资源)、数据枢纽(HF / ModelScope / BAAI)、许可证合规、自建 vs 采购决策
5.2 准备 SFT 数据
四种主流格式(Alpaca / ShareGPT / OpenAI messages / ChatML)、chat template、masking loss、数据去污染
5.3 合成数据
Self-Instruct / Evol-Instruct / MAGPIE / PersonaHub / Humpback;Judge filtering 与三大风险
5.4 低资源语言 SFT 数据合成
六条低资源路径 + 权衡矩阵 + 藏语案例(T-LLaMA → 班智达)——面向中文方言、藏语、盖丘亚等场景
5.5 质量过滤
Perplexity filter、n-gram 覆盖、嵌入语义去重、毒性检测、多样性指标;过滤决策树
上机实验
构建 500-1000 条中文领域 SFT 数据集,覆盖生成、过滤、格式化、评估全流程
本讲在全课程中的位置
参考材料
- 主线综述(课程内部):
低资源语言SFT数据合成文献综述.md——2023-2025 年约 70 篇论文的系统梳理,覆盖基础合成到案例研究 - 补充材料(课程内部):
low_resource_sft_translation_cn.md(低资源翻译场景的 SFT 数据扩增) - Self-Instruct(Wang et al., ACL 2023,arXiv:2212.10560)
- LIMA: Less Is More for Alignment(Zhou et al., NeurIPS 2023,arXiv:2305.11206)
- Evol-Instruct / WizardLM(Xu et al., ICLR 2024,arXiv:2304.12244)
- MAGPIE: Alignment Data Synthesis from Scratch(Xu et al., ICLR 2025,arXiv:2406.08464)
- Aya Dataset(Singh et al., ACL 2024,arXiv:2402.06619)
- CIDAR(Alyafeai et al., Findings of ACL 2024,arXiv:2402.03177)
- Humpback / Instruction Back-Translation(Li et al., ICLR 2024 Oral,arXiv:2308.06259)
- 班智达 Banzhida(Pan et al., 2025,arXiv:2507.09205)——藏语当前 SOTA
关键词
SFT Data · Data Sources · ShareGPT · ChatML · Self-Instruct · MAGPIE · Humpback · CIDAR · Aya · 班智达 · License Compliance · Perplexity Filter · Cultural Fossilization