人工智能实践(语言智能)
第5讲:数据工程

5.4 低资源语言 SFT 数据合成

从 Self-Instruct 到混合配方:为数据稀缺语言构建高质量指令数据的方法谱系、权衡与案例

为什么低资源是核心议题

监督微调(Supervised Fine-Tuning, SFT)数据决定了指令对齐后模型的语言、风格与文化——无论预训练多么多语,其知识都会被 SFT 分布重新投射一次。而对英语之外的多数语言,现实依然严峻:

  • 数据墙:ShareGPT / UltraChat / OpenHermes / Evol-Instruct / Magpie 合计已为英语输出数亿条指令对;对全球其他约 7000 种语言,可用数据与英语相差 3 个数量级(Kreutzer et al. 2022;Singh et al. 2024)
  • 能力差:前沿 LLM 在藏语 MMLU 上得分低于 25% 的随机基线(Gao et al., TLUE, EMNLP 2025);在约鲁巴 MMMLU 上比英语低约 25 个百分点
  • 翻译腔与文化化石化:Chen et al.(EMNLP 2024)证明在原生指令上微调的模型优于翻译指令,但翻译过的基准会用共享的翻译腔假象掩盖差距;印度区域 LLM(nanda-10b、airavata-7b)的文化知识并未超过其基础模型——这一现象被 arxiv:2505.21548 标记为文化化石化(cultural fossilization)

三大核心挑战(按 arxiv:2406.12822、AceGPT、TIFD 共识)
种子稀缺:Self-Instruct 起步所需的 175 条人工种子任务,在多数语言中没有自然等价物
引导失败:教师模型(GPT-4、Claude-3.5)在目标语言上自身能力弱时,蒸馏放大而非校正错误
文化真实性:约 28% 的知识题在文化上敏感(Global-MMLU),翻译基准隐藏了这一差距

面向低资源的六条路径

低资源 SFT 数据的所有方法,都是5.3 合成数据中的英语范式(Self-Instruct / Evol-Instruct / MAGPIE / Humpback / PersonaHub)在数据稀缺条件下的改写或混合。本节不再复述基础方法,直接讨论六条针对低资源的专门路径

路径 1:基于翻译(最简单、最危险)

Bactrian-X(Li et al. 2023)把 Alpaca+Dolly 用 Google 翻译投射到 51 种语言、每种配一个 LoRA adapter,共 340 万条。Phoenix(Chen et al. 2023)区分了后答策略(翻译指令,原生回答)与后译策略(先英语作答再翻译),前者保文化但损失流畅、后者反之。

纯 MT 的局限已被反复量化:SEACrowd 报告即使专为东南亚的 SFT 模型在 SEA 语言中也只有 57.71% 的输出被原生说话人认为"自然"——塔加洛仅 11.58%、缅甸 19.47%。Fu et al.(EMNLP 2025)记录跨语言 LLM-judge 一致性 Fleiss' κ ≈ 0.3,这对本领域报告的每个胜率都是一个警告。

路径 2:跨语言迁移与多语合成

这条路径问的是:多语指令模型一定要有多语指令数据吗? 三组工作依次给出了"否 / 部分是 / 是"的答案,构成 2023-2024 多语 LLM 最清晰的一条主轴。

2.1 xP3 / BLOOMZ / mT0:英语指令的跨语言泛化

Muennighoff 等人(ACL 2023)的 Crosslingual Generalization through Multitask Finetuning 回答了一个在当时颇为反直觉的问题:做多语指令模型,是不是必须要有多语指令数据?

数据侧xP3(Crosslingual Public Pool of Prompts) 是 P3 / Super-NaturalInstructions 的多语扩展,覆盖 46 种语言、13 大类 NLP 任务(分类、问答、生成、摘要、共指、程序合成等)。关键设计是任务的 prompt template 全部用英语书写,而任务输入输出可以是任意语言。作为对照,他们还构建了 xP3mt(Machine-Translated),把英语 prompt 翻译成 20 种语言,用来消融"prompt 语言"这个变量。

模型侧:以 BLOOM(176B,ROOTS 语料,46 自然语言 + 13 编程语言)mT5 为底座,分别在 xP3 上多任务微调,得到 BLOOMZmT0

核心发现有三个层次

  1. 跨任务泛化:在一批任务上微调后,模型在未见过的任务类型上也能零样本执行——这延续了 T0 / FLAN 的结论;
  2. 跨语言的任务泛化(这篇论文真正的贡献):即便 xP3 中的任务数据主要是英语,模型在预训练见过的其他语言上做未见任务的能力也明显提升。换句话说,"任务理解"这种抽象能力可以从英语迁移到其他语言,前提是底座预训练覆盖过目标语言;
  3. prompt 语言的影响比预想的小:xP3mt 相比 xP3 仅在机器翻译相关任务上有小幅提升,在大多数任务上差异不显著。这说明 LLM 更多是在"解码任务意图",而不是在"匹配 prompt 语种"。

对低资源语言的含义:这条路线最漂亮的地方是它给了一个廉价路径——只要底座预训练阶段见过这种语言(哪怕数据很少),就有希望通过英语指令微调激发出指令遵循能力。这个发现后来被几乎所有多语工作默认沿用。

但它也暴露了天花板:预训练没见过的语言,指令微调救不回来。这对藏语、维吾尔语这类典型低资源语言是硬约束——BLOOM 的 ROOTS 里几乎没有藏语,所以 BLOOMZ 对藏语基本无能为力。

2.2 Okapi:用 ChatGPT 做翻译,首条开放多语 RLHF 管线

Lai 等人(2023)的 Okapi 出现在 Stanford Alpaca 之后不久,当时的"英文指令模型 → 多语指令模型"最直接的做法就是把 Alpaca 数据翻译一遍。Okapi 的定位是:首个从 SFT 到 RM 再到 PPO 的完整开放多语 RLHF 栈,覆盖 26 种语言

翻译工具的选择是真正的关键决策。此前的多语 Alpaca 复制品(Bactrian-X、Chinese-Alpaca 等)普遍用 Google Translate 或 NLLB 之类的专用 MT 系统。Okapi 坚持用 ChatGPT 翻译,理由有三:

  • 指令翻译不是普通文本翻译——它包含代码、列表、格式化字段、占位符(如 {input})、专有名词,MT 系统在这些边界上经常崩溃
  • 回答的翻译更麻烦——回答里常有多轮逻辑、隐喻、文化特定表达,LLM 会在翻译时做隐式的局部重构(localization),MT 只会逐词对齐
  • 指令-回答的一致性——LLM 翻译时能看到上下文,能保持指令和回答在语用上匹配;MT 逐句翻会丢

管线结构:他们把 Alpaca 52K 指令翻译为 26 语(得到 134K 样本/语言规模的 SFT 集),然后用 ChatGPT 生成 ranked responses 作为 RM 训练数据,最后在 LLaMA 和 BLOOM 底座上跑 SFT → RM → PPO 的标准 RLHF 流程。每个语言得到一个独立的对齐模型。

贡献和局限要一起看

维度内容
贡献首次把 RLHF 这套东西开源到多语场景,让后续研究可以复用翻译数据和 RM,不必从头造轮子
局限 1 — 翻译腔ChatGPT 翻译的对齐数据,语用习惯仍然是英语思维的,对非印欧语(中文、阿拉伯语、印地语)尤甚,模型学到的是"用某种语言说出英语式的话"
局限 2 — 语言光谱26 语仍然是英语为中心的光谱,以印欧语系为主;对真正低资源语言(南亚、非洲小语种、藏语等)要么不在列表,要么数据量少得可怜

Okapi 本质上是 Alpaca 范式的多语化,没有挑战"以英语为金标、翻译过去"这个默认假设。挑战这个假设的工作是 Aya。

2.3 Aya 系列:从众包广度到深度聚焦

Cohere for AI 的 Aya 系列实际上是三条相互关联又逐步修正的工作线,合起来可以看作 2024 年多语 LLM 领域最系统的一次重建。

Aya Dataset(Singh et al. 2024):重建数据上限

核心数字65 种语言、2,997 名全球合作者、204,000 条人工撰写的 prompt-completion 对

这个数字的意义在于它是目前最大规模的人工多语指令数据集——而不是翻译数据、不是模板填充数据。方法论上的突破是参与式数据构建(participatory data curation)

  • 通过 Cohere for AI 的开放研究社区,在一年多的时间里组织全球志愿者
  • 采用 Aya Annotation Platform 支持多语写作、审核、再编辑的闭环
  • 特别强调"语言社区自己决定什么是高质量",而不是用英语标注规范直接翻译过去
  • 对每种语言既要求有母语者撰写原始 prompt,也要求撰写回答,尽量消除 translationese

配合 Aya Dataset 的还有:

资源内容
Aya Collection513M 条实例、114 种语言——把已有英语数据集翻译 + 模板填充得到的"广度部分"
Aya Evaluation Suite人工撰写的开放式生成评测 + 翻译后的评测集,跨 101 语
Aya Model (Aya 101)基于 mT5-13B 在上述数据上微调的多语指令模型

这一阶段的思路是**"尽可能多的语言 × 尽可能广的数据"**,把多语生态的下限往上拉。

Aya 23(Aryabumi et al. 2024):深度反转

2024 年 5 月发布的 Aya 23 做了一个重要的方向反转:101 → 23 语。这不是后退,而是对"多语诅咒(curse of multilinguality)"的一次直面。

反转的动机:在同等参数预算下,支持的语言越多,每种语言分得的表达容量越少。Aya 101 覆盖 101 语,但在任一具体语言上难以和专门的单语或少语模型竞争。如果目标是既服务真实用户、又在主流多语评测上展示竞争力,广度必须让位于深度

具体设计

  • 底座换成 Cohere 的 Command 系列预训练模型(8B 和 35B),相比 mT5 家族在推理、长上下文、工具调用上都更强
  • 语言列表收缩到 23 种:阿拉伯语、中文、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语、越南语——都是有一定使用人口和数字化语料基础的语言
  • 训练数据从 Aya Collection + Aya Dataset 中精挑 23 语子集,并加入 synthetic data arbitrage(用强教师模型蒸馏高质量对齐样本)

结果:Aya 23-8B 在 23 语的多项评测(XWinograd、多语 MMLU、Dolly-machine-translated 等)上击败 Gemma-7B、Mistral-7B-Instruct 和 LLaMA 家族同参数版本;35B 进一步拉开差距。这次反转证明了 深度 > 广度 在当前多语模型的训练预算分配下是更优策略——至少对于这 23 种有一定资源的语言。

Aya Expanse(Dang et al. 2024):技术栈的集大成

Aya Expanse(2024 年 10 月)可以看成是 Aya 23 的"全技术栈加强版",仍然聚焦 23 语,重点是把多个独立的研究突破整合进一个 recipe:

  1. Data Arbitrage:不是简单地用一个强教师蒸馏,而是对每种语言分别选择最强的可获取教师,跨模型套利
  2. 多语偏好优化:在多语上做 DPO / preference optimization,之前的偏好数据基本只有英语
  3. 安全对齐的跨语言迁移:研究英语安全偏好如何泛化到其他语言,以及哪些安全问题是语言/文化特异的
  4. Model Merging:训练多个针对不同语言或不同任务混合的候选模型后,做权重融合得到最终模型——这比单次联合训练更稳定

两个规模:Aya Expanse 8B 和 32B。在 Arena-Hard-Auto 的多语评测中,32B 击败 Gemma 2 27B、Mistral 8x22B 甚至 LLaMA 3.1 70B 这样参数量更大的模型——这是首次有专门的多语开放模型在主流盲测中战胜参数量明显更大的通用模型。

三条工作线的启示:从 Aya Dataset(广度 + 参与式) → Aya 23(深度反转)→ Aya Expanse(技术栈集大成),呈现了多语 LLM 工作范式的清晰演化。对做中低资源语言项目的研究者,广度 vs. 深度的选择是第一决策——覆盖 50 种语言各 1 万条 vs. 覆盖 10 种语言各 10 万条,后者的用户体验通常明显更好(同等总成本)。

路径 3:原生说话人标注与社区驱动

参与式研究现在是中心方法论。按来源的同行批准比率(Aya UI 数据):

来源类型批准率
原始人工标注0.81
翻译0.70
模板化0.62
xP3 风格0.50

非洲 NLP 社区的 Masakhane 体系(MasakhaNER 2.0、MasakhaNEWS、AfriInstruct、AfroBench)与伦理框架(Esethu 许可)已经把数据互惠正式化——Umuntu Ngumuntu Ngabantu(乌班图:我因他人而为人)成为低资源治理的参考。

路径 4:零种子与最小种子

方法核心低资源可迁移性
GLAN(Li et al. 2024)构建知识分类法 → 从叶节点生成依赖教师流利掌握分类法——藏语、克丘亚不适用
Bonito(Nayak et al. 2024)训练一个 7B 模型把任何未标注文本 + 任务标签 → 指令比 next-token 适配 +22.1 F1
LongForm(Köksal et al. 2024)人工撰写文档作为"黄金输出",反向找可信指令幻觉比前向合成更少
Magpie只喂 chat-template 前缀教师不流利的语言中急剧退化;社区改编用 logit processor + 语种 ID 过滤

路径 5:反向翻译与单语锚定

在原生语料中锚定合成是所有 2024-2025 最先进工作的共同答案:

  • COIG-Kun(Zheng et al. 2024):Humpback 在中文上的最佳移植,100 万条悟道/万卷/SkyPile 网页片段 → Yi-6B 标签模型 → 关键的答案打磨(reshape 原文以匹配幻觉指令)
  • MURI(TACL 2025):从原生目标语言文本生成指令,明确定位为翻译腔的解药
  • 班智达 Banzhida(Pan et al. 2025):72 GB 清洗藏语语料,四个渠道(公开 + 爬取 + 翻译合成 + 宗教档案)+ 跨语言汉-藏-英平行模板

路径 6:中转语言推理(PLUG)

Zhang et al.(ACL 2024)提出 PLUG:明确训练模型将指令翻译为英语 → 用英语推理 → 翻译回去。在 X-AlpacaEval 上显著击败单语调优,但完全不承诺英语的文化内容——在中等资源水平上表现最强。

方法论权衡矩阵

混合配方已主导 2024-2025 SOTA:

  • Aya Expanse:数据套利(多教师采样)+ 在线多语 DPO + 模型合并(对 Llama-3.1-70B 胜率 54%)
  • 班智达:MT + 宗教档案 + 跨语言平行模板 + 原生审查
  • Sarvam-M:课程 SFT → RLVR,印度语平均 +20%
  • SeaLLMs v3:两阶段 SFT + 自偏好 DPO(用自己而非 GPT-4 做判官)

案例研究:藏语从 T-LLaMA 到班智达

藏语自 2024 年起成为中国机构测试上述每一种技术的实验室

编码器底座(2022-2023):TiBERT(中央民大)与 MiLMo 提供基础;MC2 语料库(Zhang et al. ACL 2024)整合藏/蒙/维/哈四语

生成时代起步:T-LLaMA(Lv et al. 2024)扩展 LLaMA-2-7B 词表 8000 个藏语 SentencePiece token,22 亿藏语字符 CPT;Tibetan-LLaMA 2 消融证明词表扩展、CPT、SFT 三者缺一不可

SFT 开始有指令:TIFD(SciEngine 2024)用 GPT-4 生成响应 + 严格过滤 → 11,535 条藏语指令对。一个诚实的承认:即使 GPT-4 糟糕的藏语输出,经人工审查仍可用

完整生命周期资源:Sun-Shine / TIB-STC(Gao et al. 2025)110 亿 token 语料 + 42,676 条 Alpaca-Ti + Safety-Prompts-Ti + CValues-Ti + hh-rlhf-Ti,在 LLaMA-3.1-8B 上跑 CPT → LoRA-SFT → LoRA-DPO 三阶段

当前 SOTA 班智达(Pan et al. 2025):Qwen2.5-7B + 72 GB 清洗藏语 + 跨语言汉-藏-英平行指令模板,让中文推理贯穿到藏语输出

思维链扩展:TIBSTC-CoT(2025)用 Claude-3.5-Sonnet 作为问题生成器,首个藏语 CoT 指令集

评测基础设施:TLUE(Gao et al. EMNLP 2025)与 MiLiC-Eval 证实大多数前沿 LLM 在藏语上低于随机基线——评测本身推动了数据构建的升级

为藏语课的学生能得出的一条最简规则(综述结论):从 Qwen2.5 等具有原生字符覆盖的基础开始 → 在宗教/文学/网络语料上 CPT → 用强教师在中文/英语源侧合成 + 专用 MT 翻译 + 原生审计 → 混入小而高质量的人工和反向翻译子集 → 用文化原生评测(TLUE、MiLiC-Eval)关闭循环。

LLM 作为教师的引导问题

一个反复出现的诊断:GPT-4 和 Claude-3.5 在低资源语言中的"理解能力"实质性地超过其"生成能力"——它们是过得去的翻译者和评判者,但是不可靠的作者。Chirkova & Nikoulina(2024)在人工评估中发现英语调优的模型在非英语输出中事实准确性仅 1.46 vs 1.80

缓解四个配方(案例研究反复可见):

  1. 源侧英语生成 → 专用 MT 翻译(IndicTrans2 / NLLB / Google Translate)
  2. 原生语料锚定(AceGPT 用 Quora 阿拉伯问题、COIG-Kun 用万卷文档、班智达用宗教档案)
  3. 人在回路的文化审查(CIDAR 12 名评审员)
  4. 中转语言推理 + 反向翻译(PLUG)

评测差距

预训练覆盖语言约 200 种,后训练基准覆盖语言约 45 种——比率约 5:1。最新的文化原生基准(Singh 等 Global-MMLU,Romanou 等 INCLUDE)暴露了翻译基准隐藏的真实差距:

  • CIDAR 的 1 万条文化适应 vs 30 万条未本地化翻译:前者完胜
  • Aya 人工 0.81 vs xP3 0.50 批准率差距
  • Aya 23 从 101 语减到 23 语:深度优于广度的反转
  • Fu et al. κ ≈ 0.3:多语 judge 可靠性警告,破坏一半报告的胜率

给课程使用者的实操建议

如果你要在一个低资源语言/方言/垂直领域上做 SFT:

  1. 先评测再合成:用 Belebele / MMMLU / 你的任务专属基准给基础模型打底分,避开"合成了才发现模型根本不会该语言"
  2. 首选原生语料锚定:网络/书籍/对话作为 anchor,比 Alpaca 翻译产出更有文化真实性
  3. 教师模型选择要看下游语言:GPT-4 译中文可以,写藏语不行;Claude-3.5 在某些语言上优于 GPT-4
  4. 混合配方而非单一路径:Aya Expanse / 班智达 / Sarvam-M 的共性——都不是单一来源
  5. 用 LLM-as-Judge 时记得校准 κ:位置偏差 + 冗长偏差 + 语种偏好叠加后,报告置信区间

关键词

Self-Instruct · Alpaca · Evol-Instruct · Humpback · Magpie · Bactrian-X · Aya · CIDAR · COIG-Kun · 班智达 Banzhida · Sun-Shine · TIFD · PLUG · Cultural Fossilization · Translationese