人工智能实践(语言智能)

评分标准

人工智能实践(语言智能)课程考核方式与各项评分细则

成绩构成

本课程为考查课,成绩由三部分组成:

考核项比例说明
考勤与课堂参与10%出勤记录及课堂讨论参与度
课程实验(9 讲 lab 取最好 6 次)54%每次实验提交代码 + 训练/运行日志 + 书面分析
期末项目36%个人或小组项目,含项目报告(18%)与课堂演示(18%)
总成绩 = 考勤(10%) + 实验(54%) + 期末项目(36%)
       = 考勤(10%) + 6 次实验 × 9% + 报告(18%) + 演示(18%)

9 讲皆配实验,取最好 6 次计分——允许跳过最难啃的 3 次,鼓励深度打磨更擅长的方向。


一、考勤与课堂参与(10%)

项目分值说明
出勤6 分每次课 0.5-1 分
课堂参与4 分提问、讨论、回答问题

课堂参与评估

等级分数标准
优秀4 分积极提问和讨论,能引发有价值的课堂讨论
良好3 分偶尔提问或参与讨论
一般2 分按时出勤但基本不参与讨论
较差0-1 分多次缺勤或完全不参与

二、课程实验(54%)

总体要求

每讲一个实验,取最好 6 次成绩,每次 9 分,合计 54 分

每次实验提交:

  1. 代码:完整可运行(GitHub repo 或 zip)
  2. 运行日志:关键指标、耗时、显存使用
  3. 分析报告:1-2 页书面说明(失败案例、关键决策、边界条件)

单次实验评分标准(满分 9 分)

维度分值评分要点
可复现性2按 README 能一次跑通;依赖、数据、参数完整
正确性3核心任务目标达成;指标符合合理预期
分析深度2有对比、有诊断;不是单纯贴结果
工程质量2代码组织、错误处理、日志清晰

三、期末项目(36%)

方向推荐

以下五选一,或自拟(需提前与教师沟通):

  1. 增强版 RAG 系统 — 以第 4 讲的 PKU 手册 QA 为起点做深度优化(query 改写、混合检索、reranker、幻觉抑制)
  2. SFT 数据集建设 — 为特定垂直领域(法律/医疗/翻译/学术写作等)从零构建 1k-10k 条高质量 SFT 数据并配发布流程
  3. Agent 应用 — 面向真实工作流(文献综述助手、数据分析 Agent、研究生事务助手)构建多工具 Agent
  4. Judge 基准建设 — 为某一任务族(代码评审/论文润色/翻译质量)搭建 Judge 基线并做偏差分析
  5. GEO 实验 — 在一个可观测的生成式搜索入口(如文心一言、秘塔)上设计并验证 GEO 策略

项目报告评分(18%)

维度分值说明
选题价值3问题是否清楚;为什么值得做
方法5技术路线是否合理;与课堂内容的连结
实验5数据/对照/评估是否扎实
分析与结论3有真正的发现,而不是流水账
书写2结构清晰,图表可读

课堂演示评分(18%)

维度分值说明
清晰度510-15 分钟讲清楚问题和方法
演示5有可运行的 demo 或可视化
问答5能回应深入提问
协作3小组每位成员均有实质贡献

四、诚信与 AI 工具使用

本课程鼓励使用 AI 工具(含大模型对话助手、代码补全、Agent IDE)来辅助学习与实验,但要求:

  • 所有提交的代码、报告、分析必须由你理解并可以在答辩中重现
  • 如使用 AI 工具有实质性贡献,请在报告中明确说明使用方式(例如:"使用 Claude 生成 prompt 草稿并手动调整")
  • 禁止直接提交未经理解的 AI 产出、或在答辩中答不出自己报告中的细节

抄袭或伪造数据将直接记不及格并按学院规定处理。团队项目中如有成员显著不参与,其个人分数单独下调。