评分标准
人工智能实践(语言智能)课程考核方式与各项评分细则
成绩构成
本课程为考查课,成绩由三部分组成:
| 考核项 | 比例 | 说明 |
|---|---|---|
| 考勤与课堂参与 | 10% | 出勤记录及课堂讨论参与度 |
| 课程实验(9 讲 lab 取最好 6 次) | 54% | 每次实验提交代码 + 训练/运行日志 + 书面分析 |
| 期末项目 | 36% | 个人或小组项目,含项目报告(18%)与课堂演示(18%) |
总成绩 = 考勤(10%) + 实验(54%) + 期末项目(36%)
= 考勤(10%) + 6 次实验 × 9% + 报告(18%) + 演示(18%)9 讲皆配实验,取最好 6 次计分——允许跳过最难啃的 3 次,鼓励深度打磨更擅长的方向。
一、考勤与课堂参与(10%)
| 项目 | 分值 | 说明 |
|---|---|---|
| 出勤 | 6 分 | 每次课 0.5-1 分 |
| 课堂参与 | 4 分 | 提问、讨论、回答问题 |
课堂参与评估
| 等级 | 分数 | 标准 |
|---|---|---|
| 优秀 | 4 分 | 积极提问和讨论,能引发有价值的课堂讨论 |
| 良好 | 3 分 | 偶尔提问或参与讨论 |
| 一般 | 2 分 | 按时出勤但基本不参与讨论 |
| 较差 | 0-1 分 | 多次缺勤或完全不参与 |
二、课程实验(54%)
总体要求
每讲一个实验,取最好 6 次成绩,每次 9 分,合计 54 分。
每次实验提交:
- 代码:完整可运行(GitHub repo 或 zip)
- 运行日志:关键指标、耗时、显存使用
- 分析报告:1-2 页书面说明(失败案例、关键决策、边界条件)
单次实验评分标准(满分 9 分)
| 维度 | 分值 | 评分要点 |
|---|---|---|
| 可复现性 | 2 | 按 README 能一次跑通;依赖、数据、参数完整 |
| 正确性 | 3 | 核心任务目标达成;指标符合合理预期 |
| 分析深度 | 2 | 有对比、有诊断;不是单纯贴结果 |
| 工程质量 | 2 | 代码组织、错误处理、日志清晰 |
三、期末项目(36%)
方向推荐
以下五选一,或自拟(需提前与教师沟通):
- 增强版 RAG 系统 — 以第 4 讲的 PKU 手册 QA 为起点做深度优化(query 改写、混合检索、reranker、幻觉抑制)
- SFT 数据集建设 — 为特定垂直领域(法律/医疗/翻译/学术写作等)从零构建 1k-10k 条高质量 SFT 数据并配发布流程
- Agent 应用 — 面向真实工作流(文献综述助手、数据分析 Agent、研究生事务助手)构建多工具 Agent
- Judge 基准建设 — 为某一任务族(代码评审/论文润色/翻译质量)搭建 Judge 基线并做偏差分析
- GEO 实验 — 在一个可观测的生成式搜索入口(如文心一言、秘塔)上设计并验证 GEO 策略
项目报告评分(18%)
| 维度 | 分值 | 说明 |
|---|---|---|
| 选题价值 | 3 | 问题是否清楚;为什么值得做 |
| 方法 | 5 | 技术路线是否合理;与课堂内容的连结 |
| 实验 | 5 | 数据/对照/评估是否扎实 |
| 分析与结论 | 3 | 有真正的发现,而不是流水账 |
| 书写 | 2 | 结构清晰,图表可读 |
课堂演示评分(18%)
| 维度 | 分值 | 说明 |
|---|---|---|
| 清晰度 | 5 | 10-15 分钟讲清楚问题和方法 |
| 演示 | 5 | 有可运行的 demo 或可视化 |
| 问答 | 5 | 能回应深入提问 |
| 协作 | 3 | 小组每位成员均有实质贡献 |
四、诚信与 AI 工具使用
本课程鼓励使用 AI 工具(含大模型对话助手、代码补全、Agent IDE)来辅助学习与实验,但要求:
- 所有提交的代码、报告、分析必须由你理解并可以在答辩中重现
- 如使用 AI 工具有实质性贡献,请在报告中明确说明使用方式(例如:"使用 Claude 生成 prompt 草稿并手动调整")
- 禁止直接提交未经理解的 AI 产出、或在答辩中答不出自己报告中的细节
抄袭或伪造数据将直接记不及格并按学院规定处理。团队项目中如有成员显著不参与,其个人分数单独下调。