可微编程与深度学习

作者

刘思喆

发布于

2026年3月29日

课程计划

作为统计学院的学生，你们已经拥有了极佳的数据直觉。而这套基于 R 语言构建的教学体系，正是为了打破“R 只能用来做假设检验和跑线性回归”的传统刻板印象而设计的。在这门短期课程中，我们将彻底释放 R 生态在教学与实战中的优势：

无需痛苦地切换语言底座。我们将直接在你们最熟悉的 R 环境中，将古典统计学解析解的旧地图，平滑拓展到张量计算、自动微分与复杂图神经网络的新大陆。
借助 tidymodels 优雅的声明式流水线、data.table 极速处理能力，以及高度模块化的 luz 框架，本讲义呈现的不是“玩具代码”，而是能直接应对海量数据的真实工程实践。
得益于 Quarto¹ 卓越的科学计算出版能力，讲义中的严谨数学推导与每一次前向传播的代码实现了完美映射。在这里，“复制即用”。网页上的每一段代码，丢进你们的 RStudio 即可瞬间复现。

¹ Quarto 是基于 Pandoc 的开源技术出版系统，支持 R、Python 等多语言，一份 .qmd 文件可生成网页、PDF、幻灯片等格式，是数据科学报告与写作的现代利器。本课程全套讲义由 Quarto 引擎强力驱动。

欢迎可微编程的世界。现在，让我们开始运行第一行张量代码。

中国人民大学本科生的短期编程课。分四次课程：

第一节课：从经典统计到可微编程

核心目标：打破统计学“解析解”思维，建立“数值最优化”与“计算图”直觉。
教学内容设计：
- R 和 torch 环境，简述基本概念。
- 写出 OLS 的闭式解公式，对比梯度下降的迭代过程，理解深度学习的底层机制。
- 讲解 Autograd 的机制，利用 torch 三部曲演示求解过程
- 引入 tidymodels 的 recipes。讲解为什么要将归一化、哑变量等操作打包成流水线，避免数据穿越。
- 将线性模型升级为非线性的多层感知机（MLP）。
- 展示如何将流水线处理后的数据喂给 MLP 完成预测。
- 演示利用 R torch 实现的 L1+L2 正则化的弹性网。
时间：2026 年 3 月 29 日 15:00-16:30。
地点：立德楼。
内容：对应本讲义的第 1、2 章。

第二节课：高效特征工程与协同过滤的向量化实现

核心目标：掌握 R 中常用的数据处理的语法，建立处理海量工业数据的能力。利用 R 的向量化操作实现 item-based 协同过滤算法。
教学内容设计：
- 介绍数据处理的语法 A Grammar for Data Wrangling，以及 tidyverse 的管道操作。
- 通过连表操作，演示数据分析师如何搭建一个供公司管理层每周使用的“战报”。
- 利用 tidymodels 实现“监督式”连续型特征离散化的操作，并放入弹性网做特征压缩。
- 十亿级数据的毫秒级响应：掌握 R 语言生产环境的高性能框架 data.table，速成 data.table 的 i, j, by 核心语法。
- 利用 Movielens 10M 数据集，实操构建训练数据集和验证数据集的全过程。
- 利用 R 的矩阵/纯向量化操作，实现 Item-based 协同过滤。
- 演示该算法在从 CPU 迁移到 GPU 环境下的性能十几倍的提升。
- 解释隐式反馈（Implicit Feedback）的痛点。为什么不能只用均方误差（MSE），引出交叉熵损失与负采样策略的必要性。
时间：2026 年 4 月 19 日 10:00-11:30。
地点：立德楼。
内容：对应本讲义的第 3、4 章

第三节课：推荐召回的深度架构与工程服务化

核心目标：掌握模型模块化训练方法，打通从模型产出到线上毫秒级调用的全链路。
教学设计：
- 从 One-hot 稀疏灾难讲起，解释 Embedding 的本质。
- 介绍数据管道以及高度模块化的 luz 包。
- 用 torch 实现经典矩阵分解（MF），展示如何以更优雅的方式完成训练。
- 讲解双塔结构的业务意义，用户侧特征与物品侧特征分离，并实现该算法。
- 引入用户和商品特征，重构双塔模型，观察模型效果变化。
- 演示如何提取训练好的 Embedding 向量，并讨论使用向量数据库实现毫秒级的线上检索召回。
- 彩蛋（Optional）：拓展分享《用 4 元钱成本训练一个带有思考链的 JEPA 本地大语言模型》
时间：5 月 29 日 19:00-20:30。
地点：立德楼。
内容：对应本讲义的第 5、6 章

第四节课：利用关系拓扑的图神经网络

核心目标：跨越非欧几里得数据壁垒，理解结构信息带来的全新视角。
教学设计：
- 以奇异值分解（SVD）为跳板，引入邻接矩阵。
- 讲解图神经网络的核心：消息传递（Message Passing）与邻居聚合。
- 演示如何用 GNN 构建网络分群。
- 对比仅使用图拓扑结构，与引入节点属性特征矩阵（Feature Matrix）在效果上的差异。
- 将 Movielens 转为“用户-物品”二分图。实现 LightGCN 算法，感受高阶图卷积在推荐中的效果。
- 对比 MF、双塔与 LightGCN 在测试集上的召回率差异。为整个短期课程做全局梳理。
时间：待定
地点：待定
内容：对应本讲义的第 7、8 章