人工智能实践(语言智能)
第5讲:数据工程

5.1 常见数据来源

SFT 与后训练的主流开源数据集清单、聚合枢纽与许可证注意事项

数据的五类来源

先把问题正交化。做 SFT 或后训练,你的数据可能来自下列五类的任意组合:

人工标注集

Dolly-15k、Aya Human、OpenAssistant 等由人工编写指令和回答,质量高但成本高

蒸馏集

Alpaca、Vicuna/ShareGPT、UltraChat 等把强教师模型(GPT-3.5/4)的输出当金标

合成集

Self-Instruct、Evol-Instruct、MAGPIE、PersonaHub 从少量种子出发自增扩(方法细节见 5.3 合成数据

对话集

LMSYS-Chat-1M、WildChat、OpenHermes,源自真实用户对话日志

偏好集

HH-RLHF、UltraFeedback、LMSYS preferences,用于 DPO/RLHF 的 (chosen, rejected) 对

英语主流数据集清单

下表只列被后续工作反复引用的代表性数据集。

通用指令(SFT)

数据集规模类型许可证备注
Stanford Alpaca52K蒸馏(text-davinci-003)CC BY-NC 4.0继承 OpenAI 条款;不可商用
Dolly-15k15K人工(Databricks 员工)CC BY-SA 3.0首个可商用人工作者指令集
Vicuna / ShareGPT70K蒸馏(GPT-4 对话)研究用LMSYS 捕获
UltraChat1.5M蒸馏(ChatGPT 自对话)MIT多轮,覆盖 30 个主题
OpenHermes 2.5~1M聚合多源MITTeknium 维护
OpenAssistant161K人工+偏好树Apache-2.035 语言,含对话树
LIMA1K精选人工研究"Less Is More"——仅 1K 条可比肩 52K
FLAN v215M+多任务模板化Apache-2.0超大规模;判别任务强
Evol-Instruct / WizardLM250K合成演化MIT5 种深化 + 1 种广度变异
Magpie300K零种子合成MIT从 Llama-3-Instruct 自提取
PersonaHub1B personas合成(Persona 驱动)研究(腾讯)10 亿角色作为条件

代码、数学、工具使用

数据集规模用途
OSS-Instruct / Magicoder75K代码生成(7B 比肩 ChatGPT)
WizardMath15K数学推理(过程奖励 RL)
MetaMathQA395KGSM8K / MATH 增强
ToolBench126K多工具调用
ToolAlpaca3.9KAPI 调用轨迹
Nemotron-4 340B 合成~1M+NVIDIA 报告 98% 是合成的

偏好数据(DPO / RLHF)

数据集规模偏好来源
Anthropic HH-RLHF170K人工(helpfulness + harmlessness)
UltraFeedback64KGPT-4 评分的 4 路候选
LMSYS Preferences100K+真实用户对战
Nectar183K7 路排名

多语与低资源数据集

详细讨论见 5.4 低资源语言 SFT 数据合成,这里给一个按区域的速查:

区域代表数据集规模 & 语言
泛多语Aya Dataset + Collection65 语 20.4 万人工 + 114 语 5.13 亿模板
泛多语Bactrian-X52 语 340 万(翻译+重生成)
泛多语Okapi26 语 158K + 偏好
印度IndicInstruct / Airavata14 语(IndicTrans2 翻译 + 人工)
东南亚SEA-LION11+ 语 1680 万对
阿拉伯CIDAR10K 文化本地化(胜过 30× 翻译量)
非洲AfriInstruct19 语 混合任务
中文COIG-Kun100 万条(反向翻译 + 答案打磨)
中文WildChat-1M真实用户对话
藏语Alpaca-Ti / TIB-STC42,676 条 + 多样化 DPO

数据枢纽(去哪找)

枢纽主要资源适合
Hugging Face Datasets上万 SFT / DPO 数据集;支持 streaming英语 + 泛多语主流
ModelScope阿里维护;中文/多模态/垂直领域中文重点项目
OpenCompass评测集为主,也含训练数据需要配套评测时
PaperWithCode Datasets分类 benchmark找"某任务的标准数据"
BAAI Data悟道/万卷/COIG 系中文大规模
AI4Bharat印度语系多印度语
Masakhane非洲语系社区治理范式

许可证与合规

最易踩坑的三个类别

  1. 继承 OpenAI 条款的数据集(Alpaca / Vicuna / ShareGPT / UltraChat)——明确条款是不得用于训练与 OpenAI 竞争的模型;商用产品请替换为 Dolly-15k / OpenAssistant / Aya 等
  2. CC BY-NC 家族——只允许非商用;许多 Alpaca 衍生集继承此条款
  3. 爬取的对话日志——即使来自公开网站,也要核查网站服务条款与用户隐私(去除 PII、按需合规脱敏)

推荐的商用友好子集

  • Dolly-15k (CC BY-SA 3.0)
  • OpenAssistant (Apache-2.0)
  • Aya Dataset 人工子集 (Apache-2.0)
  • Evol-Instruct / WizardLM (MIT)
  • Magpie (MIT)
  • UltraFeedback (MIT,偏好数据)
  • FLAN v2 (Apache-2.0)

自建还是采购?一个简单决策

下一步

关键词

Alpaca · Dolly-15k · ShareGPT · UltraChat · OpenHermes · FLAN · Aya · LMSYS-Chat-1M · HH-RLHF · UltraFeedback · Hugging Face Datasets · ModelScope · License Compliance