人工智能实践(语言智能)
第1讲:经典 NLP 任务

第1讲:经典 NLP 任务

从文本表示到序列标注再到生成任务,建立经典 NLP 的统一视角,理解 Transformer 时代到来前人们是如何拆解语言问题的

为什么今天还要学"经典 NLP"

在大模型可以"一句话调用"几乎所有 NLP 能力的今天,很多研究生会反问:既然 pipeline("sentiment-analysis") 一行就能跑,为什么还要花一讲讲分词、TF-IDF 和 BIO 标注?

答案不是"要你会手写 HMM",而是:任何对大模型能力的严肃评估、任何一次真实的业务落地,都绕不开经典 NLP 为每类任务沉淀下来的问题分解方式和评估框架。情感分析到今天仍用 macro-F1 衡量;机器翻译仍跑 BLEU 和 COMET;检索增强生成里的向量检索,本质是 TF-IDF + Word2Vec 思路的直接继承;大模型一旦在中文数字、实体边界、长尾术语上出错,排查线索几乎总会回到 tokenizer 与标注方案。

本讲的定位就是给你一张"Transformer 前的 NLP 地图":六张子图——表示、分词、分类、序列标注、生成、评估——每张图都对应一类任务的数学建模方式和至今仍在使用的评估指标。下一讲的 Transformer,其价值正是因为它用一种统一架构一次性把这六张图上的任务全部搬到了同一个范式下。

本讲写给谁:已经用过 ChatGPT / Claude,但从未自己训练过文本分类器、从未为 NER 设计过 BIO 标签、从未手动计算过 BLEU 的研究生。经典方法不是要你会实现,而是要你看懂它们在衡量什么。

学习目标

完成本讲后,你将能够:

  1. 理解 文本如何被机器表示——从 one-hot、TF-IDF 到静态词向量(Word2Vec / GloVe / FastText),并说出哪些方法今天仍在工业界使用
  2. 掌握 分词(Tokenization)的基本方法:字 / 词 / 子词(BPE、WordPiece、SentencePiece),并解释 tokenizer 选择如何直接影响 LLM 的表现
  3. 区分 文本分类、序列标注、序列到序列三类核心 NLP 任务的建模差异,为每类任务挑选正确的评估指标
  4. 解释 BLEU、ROUGE、F1、Accuracy、Perplexity、BERTScore、COMET 等指标的适用场景与典型陷阱
  5. 动手 用 Hugging Face pipeline 在 10 分钟内跑通 5 个经典任务,记录运行时间和显存,感受"统一架构"的威力

学时分配

环节时长内容
讲授~80 分钟表示 / 分词 / 分类 / 序列标注 / 生成 / 评估
上机实验~60 分钟Hugging Face pipeline 一站跑通 5 个经典任务

课程内容

本讲在全课程中的位置

第 1 讲建立"任务视角",第 2 讲建立"模型视角"。后续七讲在这两个底座上延伸出提示词、RAG、数据工程、微调、Agent、Judge、GEO 的完整工程链条。

参考材料

  • Dan Jurafsky & James H. Martin. Speech and Language Processing (3rd ed. draft). 第 2-4、6、10-14 章——词向量、分词、分类、标注、翻译、评估的权威教材。
  • Hugging Face 官方课程 NLP Course,第 1-2 章对应 pipeline 与 tokenizer 的使用。
  • Tomas Mikolov et al. (2013). Efficient Estimation of Word Representations in Vector Space. Word2Vec 原论文。
  • Kishore Papineni et al. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. 机器翻译评估的奠基论文。

关键词

Tokenization · BPE · Word2Vec · TF-IDF · NER · BIO · BLEU · ROUGE · BERTScore · Perplexity · Hugging Face Pipeline