人工智能实践（语言智能）

评分标准

人工智能实践（语言智能）课程考核方式与各项评分细则

成绩构成

本课程为考查课，成绩由三部分组成：

考核项	比例	说明
考勤与课堂参与	10%	出勤记录及课堂讨论参与度
课程实验（9 讲 lab 取最好 6 次）	54%	每次实验提交代码 + 训练/运行日志 + 书面分析
期末项目	36%	个人或小组项目，含项目报告（18%）与课堂演示（18%）

总成绩 = 考勤(10%) + 实验(54%) + 期末项目(36%)
       = 考勤(10%) + 6 次实验 × 9% + 报告(18%) + 演示(18%)

9 讲皆配实验，取最好 6 次计分——允许跳过最难啃的 3 次，鼓励深度打磨更擅长的方向。

一、考勤与课堂参与（10%）

项目	分值	说明
出勤	6 分	每次课 0.5-1 分
课堂参与	4 分	提问、讨论、回答问题

课堂参与评估

等级	分数	标准
优秀	4 分	积极提问和讨论，能引发有价值的课堂讨论
良好	3 分	偶尔提问或参与讨论
一般	2 分	按时出勤但基本不参与讨论
较差	0-1 分	多次缺勤或完全不参与

二、课程实验（54%）

总体要求

每讲一个实验，取最好 6 次成绩，每次 9 分，合计 54 分。

每次实验提交：

代码：完整可运行（GitHub repo 或 zip）
运行日志：关键指标、耗时、显存使用
分析报告：1-2 页书面说明（失败案例、关键决策、边界条件）

单次实验评分标准（满分 9 分）

维度	分值	评分要点
可复现性	2	按 README 能一次跑通；依赖、数据、参数完整
正确性	3	核心任务目标达成；指标符合合理预期
分析深度	2	有对比、有诊断；不是单纯贴结果
工程质量	2	代码组织、错误处理、日志清晰

三、期末项目（36%）

方向推荐

以下五选一，或自拟（需提前与教师沟通）：

增强版 RAG 系统 — 以第 4 讲的 PKU 手册 QA 为起点做深度优化（query 改写、混合检索、reranker、幻觉抑制）
SFT 数据集建设 — 为特定垂直领域（法律/医疗/翻译/学术写作等）从零构建 1k-10k 条高质量 SFT 数据并配发布流程
Agent 应用 — 面向真实工作流（文献综述助手、数据分析 Agent、研究生事务助手）构建多工具 Agent
Judge 基准建设 — 为某一任务族（代码评审/论文润色/翻译质量）搭建 Judge 基线并做偏差分析
GEO 实验 — 在一个可观测的生成式搜索入口（如文心一言、秘塔）上设计并验证 GEO 策略

项目报告评分（18%）

维度	分值	说明
选题价值	3	问题是否清楚；为什么值得做
方法	5	技术路线是否合理；与课堂内容的连结
实验	5	数据/对照/评估是否扎实
分析与结论	3	有真正的发现，而不是流水账
书写	2	结构清晰，图表可读

课堂演示评分（18%）

维度	分值	说明
清晰度	5	10-15 分钟讲清楚问题和方法
演示	5	有可运行的 demo 或可视化
问答	5	能回应深入提问
协作	3	小组每位成员均有实质贡献

四、诚信与 AI 工具使用

本课程鼓励使用 AI 工具（含大模型对话助手、代码补全、Agent IDE）来辅助学习与实验，但要求：

所有提交的代码、报告、分析必须由你理解并可以在答辩中重现
如使用 AI 工具有实质性贡献，请在报告中明确说明使用方式（例如："使用 Claude 生成 prompt 草稿并手动调整"）
禁止直接提交未经理解的 AI 产出、或在答辩中答不出自己报告中的细节

抄袭或伪造数据将直接记不及格并按学院规定处理。团队项目中如有成员显著不参与，其个人分数单独下调。

课程总览

人工智能实践（语言智能）——北京大学软件与微电子学院研究生课程

第1讲：经典 NLP 任务

从文本表示到序列标注再到生成任务，建立经典 NLP 的统一视角，理解 Transformer 时代到来前人们是如何拆解语言问题的

On this page

成绩构成一、考勤与课堂参与（10%）课堂参与评估二、课程实验（54%）总体要求单次实验评分标准（满分 9 分）三、期末项目（36%）方向推荐项目报告评分（18%）课堂演示评分（18%）四、诚信与 AI 工具使用