第5讲：数据工程

为大模型准备数据——从常见数据来源到 SFT 格式规范、通用合成方法、低资源专题与质量过滤

引言：被低估的核心能力

在大模型时代，"数据工程"（Data Engineering）常常被视作训练流程中枯燥的"前处理"环节，但它恰恰是最被低估、也最能决定最终模型质量的能力。Tülu 3、LIMA、MAGPIE 等代表性工作反复证明：模型能力的天花板，往往不是由算法或参数量决定，而是由训练数据的质量、多样性与结构决定。在指令微调（SFT）阶段，1,000 条精选的高质量样本足以超越 50,000 条噪声样本训练出的模型（Zhou et al., 2023）；而在低资源语言场景中，CIDAR 以 1 万条本地化样本击败了规模大 30 倍的翻译数据（Alyafeai et al., 2024）。

因此，做数据不是"洗数据"，而是一条完整的工程管线：从数据来源选型、格式规范、合成扩增，到低资源专题、质量过滤，再到去污染与评估。本讲按照"来源 → 准备 → 合成 → 低资源专题 → 质量过滤"的顺序展开，让你既能为英语主流场景也能为中文、藏语、方言等中低资源场景构建高质量数据集。

学习目标

完成本讲后，你将能够：

导航主流开源数据集（Alpaca、Dolly、Aya、UltraChat、HH-RLHF 等）并识别许可证陷阱
设计可复用的 SFT 数据格式（ShareGPT / Alpaca / OpenAI messages / ChatML）与掩码损失
运用通用合成方法（Self-Instruct、Evol-Instruct、MAGPIE、Persona-driven、Humpback）与 Judge 过滤
理解低资源语言 SFT 数据合成的方法谱系：翻译法、跨语言迁移、原生标注、零种子、反向翻译、中转语言——及各自的权衡
过滤数据质量：Perplexity、语义去重、毒性检测、多样性指标
独立交付 一个 500-1000 条规模的小型领域 SFT 数据集并配文档化的构建流程

学时分配

环节	时长	内容
讲授	~80 分钟	数据来源 / SFT 格式规范 / 合成数据 / 低资源合成 / 质量过滤
上机实验	~80 分钟	构建 500-1000 条的领域 SFT 数据集

课程内容

5.1 常见数据来源

五类来源、主流开源数据集清单（英语主流 + 多语低资源）、数据枢纽（HF / ModelScope / BAAI）、许可证合规、自建 vs 采购决策

5.2 准备 SFT 数据

四种主流格式（Alpaca / ShareGPT / OpenAI messages / ChatML）、chat template、masking loss、数据去污染

5.3 合成数据

Self-Instruct / Evol-Instruct / MAGPIE / PersonaHub / Humpback；Judge filtering 与三大风险

5.4 低资源语言 SFT 数据合成

六条低资源路径 + 权衡矩阵 + 藏语案例（T-LLaMA → 班智达）——面向中文方言、藏语、盖丘亚等场景

5.5 质量过滤

Perplexity filter、n-gram 覆盖、嵌入语义去重、毒性检测、多样性指标；过滤决策树

上机实验

构建 500-1000 条中文领域 SFT 数据集，覆盖生成、过滤、格式化、评估全流程

本讲在全课程中的位置

参考材料

主线综述（课程内部）：低资源语言SFT数据合成文献综述.md——2023-2025 年约 70 篇论文的系统梳理，覆盖基础合成到案例研究
补充材料（课程内部）：low_resource_sft_translation_cn.md（低资源翻译场景的 SFT 数据扩增）
Self-Instruct（Wang et al., ACL 2023，arXiv:2212.10560）
LIMA: Less Is More for Alignment（Zhou et al., NeurIPS 2023，arXiv:2305.11206）
Evol-Instruct / WizardLM（Xu et al., ICLR 2024，arXiv:2304.12244）
MAGPIE: Alignment Data Synthesis from Scratch（Xu et al., ICLR 2025，arXiv:2406.08464）
Aya Dataset（Singh et al., ACL 2024，arXiv:2402.06619）
CIDAR（Alyafeai et al., Findings of ACL 2024，arXiv:2402.03177）
Humpback / Instruction Back-Translation（Li et al., ICLR 2024 Oral，arXiv:2308.06259）
班智达 Banzhida（Pan et al., 2025，arXiv:2507.09205）——藏语当前 SOTA

关键词

SFT Data · Data Sources · ShareGPT · ChatML · Self-Instruct · MAGPIE · Humpback · CIDAR · Aya · 班智达 · License Compliance · Perplexity Filter · Cultural Fossilization