CMU 深度学习导论 (Introduction to Deep Learning)
关于 OH 活动 课程大纲 讲座 助教辅导 & 训练营 作业 文档 & 工具 往期课程 S25 F24 S24 菜单 关于 OH 活动 课程大纲 讲座 助教辅导 & 训练营 作业 文档 & 工具 往期课程 F24 S24 F23
11-785 深度学习导论 2025 春季 课堂直播链接 线下上课地点:Giant Eagle Auditorium, Baker Hall (A51)
当前截止日期和公告
| 作业 | 截止日期 | 描述 | 链接 | | ------- | --------------------------------------------------------------------- | -------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------- | | HW3P1 | 提前提交:3月14日,美国东部时间晚上 11:59 最终提交:3月28日,美国东部时间晚上 11:59 | RNNs、GRUs 和搜索 | Piazza | | HW3P2 | 提前提交:3月14日,美国东部时间晚上 11:59 最终提交:3月28日,美国东部时间晚上 11:59 | 语音到音素的映射 | Piazza | | HW2P1 Bonus | 最终提交:4月25日,星期五,美国东部时间晚上 11:59 | Dropout2d、BatchNorm2d 和 ResNet | Autolab | | HW2P1 Autograd | 最终提交:4月25日,星期五,美国东部时间晚上 11:59 | 应用 Autograd 到卷积网络 | Autolab | | HW1P1 Bonus | 最终提交:4月25日,星期五,美国东部时间晚上 11:59 | Adam、AdamW 优化器和 Dropout | Autolab Piazza | | HW1P1 Autograd | 最终提交:4月25日,星期五,美国东部时间晚上 11:59 | 自动微分引擎 | Autolab Piazza |
课程简介
“深度学习”系统,以深度神经网络为代表,正日益接管所有 AI 任务,从语言理解、语音和图像识别,到机器翻译、规划,甚至游戏和自动驾驶。 因此,深度学习方面的专业知识正迅速从一种深奥的理想技能转变为许多高级学术环境中的强制性先决条件,以及工业就业市场中的巨大优势。
在本课程中,我们将学习深度神经网络的基础知识,以及它们在各种 AI 任务中的应用。 到课程结束时,预计学生将对该主题有相当的熟悉程度,并且能够将深度学习应用于各种任务。 他们还将能够理解当前关于该主题的大部分文献,并通过进一步学习来扩展他们的知识。
如果您只对讲座感兴趣,可以在 YouTube 频道 上观看。
从学生角度看课程描述
就概念而言,本课程非常全面。 它帮助我们理解深度学习的基础知识。 本课程从 MLPs 逐渐开始,并逐步发展到更复杂的概念,例如 attention 和 sequence-to-sequence 模型。 我们通过实践来学习 PyTorch,这对于实现深度学习模型非常重要。 作为一名学生,您将学习构建深度学习模型所需的工具。 家庭作业通常有两个组成部分:Autolab 和 Kaggle。 Kaggle 组件允许我们探索多种架构,并了解如何微调和不断改进模型。 所有家庭作业的任务都相似,并且有趣的是学习如何使用多种深度学习方法解决相同的任务。 总而言之,在本课程结束时,您将有足够的信心来构建和调整深度学习模型。
先修要求
- 本课程将使用 Numpy 和 PyTorch,因此您需要能够使用 python3 进行编程。
- 您需要熟悉基本微积分(微分、链式法则)、线性代数和基本概率。
学分
课程 11-785 和 11-685 是等效的 12 个学分的研究生课程,分别有期末项目和 HW5。 课程 11-485 是本科版本,价值 9 个学分,唯一的区别是没有期末项目或 HW5。
你的支持者
讲师:
- Bhiksha Raj : bhiksha@cs.cmu.edu
- Rita Singh : rsingh@cs.cmu.edu
助教:
- Kateryna Shapovalenko : kshapova@andrew.cmu.edu
- Miya Sylvester : nsylvest@andrew.cmu.edu
- Alexander Moker : amoker@andrew.cmu.edu
- Purusottam Samal : psamal@andrew.cmu.edu
- Shravanth Srinivas : shravans@andrew.cmu.edu
- Yuzhou Wang : yuzhouwa@andrew.cmu.edu
- Massa Baali : mbaali@andrew.cmu.edu
- Vedant Singh : vhsingh@andrew.cmu.edu
- Sadrishya Agrawal : sadrisha@andrew.cmu.edu
- Michael Kireeff : mkireeff@andrew.cmu.edu
- Vishan Oberoi : voberoi@andrew.cmu.edu
- Ishita Gupta : ishitag@andrew.cmu.edu
- Shubham Kachroo : skachroo@andrew.cmu.edu
- Shrey Jain : shreyj@andrew.cmu.edu
- Floris Nzabakira : fnzabaki@andrew.cmu.edu
- Christine Muthee : cmuthee@andrew.cmu.edu
- Ahmed Issah : aissah@andrew.cmu.edu
- Shubham Singh : shubham4@andrew.cmu.edu
- Tanghang Elvis Tata : etanghan@andrew.cmu.edu
- John Liu : johnliu@andrew.cmu.edu
- Damilare Olatunji : dolatunj@andrew.cmu.edu
- Brian Ebiyau : bebiyau@andrew.cmu.edu
- Peter Wauyo : pwauyo@andrew.cmu.edu
- Eman Ansar : eansar@andrew.cmu.edu
致谢
名人墙
匹兹堡时间安排(美国东部时间)
讲座: 星期一和星期三,上午 8:00 - 上午 9:20 - 快乐时光 :) 助教辅导: 星期五,上午 8:00 - 上午 9:20 答疑时间: 请参考下面的 OH 日历 / Piazza 以获取最新信息。 家庭作业黑客马拉松: 在“家庭作业黑客马拉松”期间,课程工作人员将协助学生完成家庭作业。 建议以学习小组的形式参加。 每周六
- 地点:待定
- 时间:星期六下午 2-5 点 美国东部时间
活动日历: 下面的 Google 日历包含所有课程活动和截止日期,方便学生使用。 请随时通过单击下面日历右下角的加号 (+) 按钮将此日历添加到您的 Google 日历。 对时间表的任何临时更改都将首先反映在此日历中。 OH 日历: 下面的 Google 日历包含答疑时间的时间表。 请随时通过单击下面日历右下角的加号 (+) 按钮将此日历添加到您的 Google 日历。 对时间表的任何临时更改都将首先反映在此日历中。
课程大纲
政策
细分
分数分配 | 评分将基于每周小测验(24%)、作业(50%)和课程项目(25%)。 请注意,您成绩的 1% 分配给考勤。
小测验
小测验 | 将会有每周小测验。
- 我们将保留您剩余 14 个小测验中最好的 12 个。
- 小测验通常(但并非总是)在星期五发布,并在 48 小时后到期。
- 小测验根据正确答案的数量进行评分。
- 小测验将占您总分的 24%。
作业
作业 | 总共有五个作业,以及学期最后一周的同行评审作业。 作业将包括 Autolab 组件,您可以在其中实现低级操作,以及 Kaggle 组件,您可以在其中与您的同事竞争相关的 DL 任务。
- Autolab 组件根据正确完成部分的数量进行评分。
- 我们将发布 HIGH (90%)、MEDIUM (70%)、LOW (50%) 和 VERY LOW (30%) 在 Kaggle 比赛中的性能截止值。 分数将在这些截止值之间线性插值。
- 作业将有一个“初步提交截止日期”、“准时提交截止日期”和“延迟提交截止日期”。
- 提前提交截止日期: 您需要在该截止日期前至少向 Kaggle 提交一次。 错过此截止日期的人将自动失去后续作业中可能获得的 10% 的分数。 这旨在鼓励学生尽早开始完成作业。
- 准时截止日期: 在该截止日期前提交的人有资格获得最多五个奖励积分。 这些积分将通过 A 截止值与 HW 获得的最高性能之间的插值来计算。 最高性能将获得 105。
- 延迟截止日期: 在准时截止日期后提交的人仍然可以在延迟截止日期前提交。 对于迟交,您的最终成绩会受到 10% 的处罚。
- Slack days: 每个人最多有 10 个 slack days,他们可以分配给所有作业 只有 P2s。 一旦你用完了你的 slack days,你将默认进入迟交类别。 Slack days 累积在 所有 家庭作业的 所有 部分。
- Kaggle scoring: 我们将使用 max(max(准时分数), max(slack-day 分数), .0.9*max(延迟提交分数)) 作为你家庭作业的最终分数。 如果是 slack-days 提交,将计算与所选提交对应的 slack days。
- 作业占您总分的 50%,其中每个 HW 占 12.5%。
- 第五个 HW,HW5,将在课程后期发布,并且具有与课程项目相同的权重。 请参阅下面的项目部分以获取更多详细信息。
- 奖励 HW 将计入相关 HWp1 作业编号的分数。 (例如,Bonus1 积分计入 HW1p1。)
- 所有学生,11-485/685/785,都需要完成同行评审作业。 任务是让所有学生审查并评分 4-6 个视频。 它将在课程结束后(但在期末考试周之前)的最后一个周末完成。 我们将告诉您已分配给您审查的项目; 每次审查应花费大约 15~20 分钟。 这是我们希望您对每次审查所做的事情:
- 仔细观看视频。 在观看视频时,记下您可能遇到的一些笔记/疑虑/问题。
- 参考初始报告以消除任何困惑。
- 您必须在审阅对象的相应 Piazza 帖子中发布至少一条评论。 此评论必须是一个有意义的问题或疑虑,表明您已理解该材料。
- 最后,仔细填写项目审查表。 更多详细信息将在 Piazza 上分享。
项目
项目 |
- 所有参加研究生课程的学生都需要做一个课程项目。 该项目占您成绩的 25%。 这些分数分布如下:20% - 期中报告;35% - 项目视频;5% - 回复 Piazza 上的评论;40% - 项目报告。
- 请注意,项目对于 11-785 名学生是强制性的。 如果发生灾难(记住 2020 年春季),该项目可以用 HW5 代替。 11-685 名学生可以选择做一个项目而不是 HW5。 将对您的项目或 HW5 进行评分。
- 项目报告和视频演示的重要信息(包括期中报告评分标准、期末报告评分标准、视频时间表和视频评分):链接。
考勤
考勤 |
-
如果您在 A 部分,则您应该参加面对面讲座。 我们会跟踪考勤。
-
如果您在任何其他(时区外)部分中,您必须在 zoom 上直播观看讲座。 除非您位于不方便的时区,否则实时观看是强制性的。 其他人需要获得特别许可才能观看预先录制的讲座(在 MediaServices 上)。
-
如果在 MediaServices 上观看,则必须在下周一上午 8 点之前观看每周的讲座(否则,不算数)。
-
在学期末,我们将选择讲座的随机子集并制表考勤。
-
如果您参加了至少 70% 的这些(随机选择的)讲座,您将获得考勤分。 最终成绩
最终成绩 | 期末成绩是曲线。 您的总成绩将取决于您相对于同学的表现。
通过/不通过
通过/不通过 | 注册通过/不通过的学生必须完成所有测验、HW,如果他们参加的是研究生课程,则必须完成项目。 需要相当于 B- 的成绩才能通过本课程。
旁听
旁听 | 旁听生无需完成课程项目,但必须完成所有测验和作业。 我们鼓励无论如何都要做一个课程项目。
结束政策
学习小组
我们认为有效的协作可以大大提高学生的学习效果。 因此,本课程采用学习小组进行测验和作业磨练。 强烈建议您加入学习小组; 查看 piazza 以获取更多更新。
Piazza:讨论区
Piazza 是我们用于讨论的工具。 如果您在学期开始时注册,您应该会自动注册。 如果没有,请在此处注册 here。 此外,在使用 piazza 论坛时,请遵守 Piazza 礼仪。
AutoLab:软件工程
AutoLab 是我们用来测试您对低级概念的理解的工具,例如设计您自己的库、实现重要算法以及从头开始开发优化方法。
Kaggle:数据科学
Kaggle 是我们测试您对讲座中讨论的神经网络架构的理解和扩展能力的地方。 与 AutoLab 显示分数类似,Kaggle 也显示分数,所以不要感到害怕 - 我们随时为您提供帮助。 我们致力于热门 AI 主题,如语音识别、面部识别和神经机器翻译。
MediaServices/YouTube:讲座和助教辅导录音
未参加现场讲座的 CMU 学生应在 MediaServices 上观看上传的讲座,以获得考勤学分。 指向各个视频的链接将在上传后发布。
我们的 YouTube 频道 是非 CMU 人员可以观看所有讲座和助教辅导录音的地方。 标有“Old”的视频不是最新的,因此请注意视频标题。
书籍和其他资源
本课程不会遵循特定的书籍,而是会从多个来源中汲取知识。 我们在本页末尾列出了相关书籍。 我们还将发布每个课程的相关阅读材料的链接。 学生应在课前熟悉这些材料。 阅读材料有时会很神秘且难以理解; 如果是这样,请不要担心,我们将在课堂上提供更简单的解释。
您还可以在 here 找到文献中最新的模型目录。 我们希望到课程结束时,您能够解释(如果不能完全理解)wiki 和目录中的许多架构。
学术诚信
您应该遵守 大学关于学术诚信和剽窃的政策。
- 您可以在作业上与其他学生交谈和合作。
- 您可以分享想法,但不能分享代码。 您应该提交您自己的代码。
您的课程讲师保留根据发生的违反学术不诚实行为来确定适当处罚的权利。 违反大学政策可能会导致严重的处罚,包括该课程不及格以及可能被卡内基梅隆大学开除。 如果您对此政策以及您在本课程中所做的任何工作有任何疑问,请随时联系您的讲师以寻求帮助。
课堂笔记
一本包含课堂笔记的书籍正在与本课程同步开发; check it out。
讲座时间表
您可以在 MediaServices 上观看录制的讲座。
| 讲座 | 日期 | 主题 | 幻灯片、视频 | 附加材料 | 测验 | | ---- | --------------- | ------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ----- | | 0 | 1月3日,星期五 | * 课程安排 * 学习目标 * 评分 * 截止日期
| Youtube | 无测验 | | 1 | 1月13日,星期一 | * 介绍
| 幻灯片 (PDF) MediaServices Youtube | 新连接主义 (1988) 关于艾伦·图灵对连接主义的预测 [ McCullogh 和 Pitts 论文](https://deeplearning.cs.cmu.edu/S25/< https:/www.cs.cmu.edu/~./epxing/Class/10715/reading/McCulloch.and.Pitts.pdf>) Rosenblatt: 感知器 Bain: 身与心 Hebb: 行为的组织 | 测验 1 | | 2 | 1月15日,星期三 | * 神经网络作为通用逼近器
| 幻灯片 (PDF) MediaServices Youtube | Shannon (1949) 布尔电路 关于偏差-方差权衡 | | | 3 | 1月17日,星期五 | * 训练第一部分 * 学习问题 * 经验风险最小化
| 幻灯片 (PDF) MediaServices Youtube | Widrow 和 Lehr (1992) Adaline 和 Madaline | 测验 2 | | - | 1月20日,星期一 | * 不上课(MLK 日)
| | | | 4 | 1月22日,星期三 | * 训练第二部分 * 梯度下降 * 训练网络 * 反向传播
| 幻灯片 (PDF) MediaServices Youtube | Widrow 和 Lehr (1992) Adaline 和 Madaline 感知器算法的收敛性 阈值逻辑 TC(复杂性) AC(复杂性) | | | 5 | 1月27日,星期一 | * 训练第三部分 * 反向传播 * 反向传播的微积分
| 幻灯片 (PDF) MediaServices Youtube | Werbos (1990) Rumelhart、Hinton 和 Williams (1986) | 测验 3 | | 6 | 1月29日,星期三 | * 训练第四部分 * 收敛问题 * 损失面 * 动量
| 幻灯片 (PDF) MediaServices Youtube | 反向传播无法分离,而感知器却能成功分离,Brady 等人 (1989) 为什么动量真正起作用 | | | 7 | 2月3日,星期一 | * 训练第五部分 * 优化 * 批量大小、SGD、小批量、二阶方法
| 幻灯片 (PDF) MediaServices Youtube | 动量,Polyak (1964) Nestorov (1983) 导数和影响 | 测验 4 | | 8 | 2月5日,星期三 | * 训练第六部分 * 优化器和正则化器 * 选择散度(损失)函数 * 批量归一化 * Dropout
| 幻灯片 (PDF) MediaServices Youtube | [导数和影响图](https://deeplearning.cs.cmu.edu/S25/<./document/readings/derivatives and influences.pdf>) ADAGRAD, Duchi, Hazan 和 Singer (2011) Adam:一种随机优化方法,Kingma 和 Ba (2014) | | | 9 | 2月10日,星期一 | * 平移不变性 * 卷积神经网络 (CNNs)