AI 中的数学——从线性代数到深度学习的底层逻辑
AI 中的数学——从线性代数到深度学习的底层逻辑
本文的目标读者是具备理工科研究生数学基础,不追求证明的严谨性,而是追求"为什么出现在 AI 里"的直觉。
引言:贯穿全文的主线——寻找更好的表示
2012 年,Alex Krizhevsky 用一块 GPU 训练了一个八层卷积神经网络(AlexNet),在 ImageNet 图像识别大赛上将错误率从 26% 一举降到 16%。这场胜利被公认为深度学习革命的起点。但很少有人问:为什么恰好是 2012 年?八层网络背后的数学原理是什么?为什么之前的二十年神经网络做不到这件事?
要回答这些问题,我们需要一条贯穿全文的主线——表示学习(Representation Learning)的进化史。
AI 的核心问题可以归结为一句话:如何把原始数据转换成对后续任务有用的形式。早期的方法是人工设计特征(Feature Engineering)——人观察数据后编写规则,告诉模型"颜色直方图重要"、"纹理重要"、"边缘重要"。这种方法在简单问题上有效,但面对图像、语言、语音这种高维、非结构化的数据时,人的设计能力远远不够。
数学提供了另一条路:让模型自己学习数据的表示。这个想法贯穿了从 Perceptron 到 Transformer 的全部历史。每一次 AI 的重大突破,本质上都是"表示能力"的一次跃迁:
- 1943–1969:McCulloch-Pitts 神经元和 Rosenblatt 的感知机(Perceptron)证明了线性模型可以学习简单模式。但 Minsky 和 Papert 在 1969 年证明,单层感知机连异或(XOR)问题都解决不了——线性表示有根本性局限。
- 1986–1990s:反向传播(Backpropagation)算法让多层网络成为可能,隐藏层(Hidden Layer)可以学习中间表示。但计算资源匮乏、梯度消失(Vanishing Gradient)、过拟合(Overfitting)等问题限制了深层网络的实用化。
- 2006–2012:Hinton 提出的深度信念网络(Deep Belief Network)掀起了"深度学习"(Deep Learning)这个词的流行。2012 年 AlexNet 的成功归因于三个因素的汇合:大规模标注数据(ImageNet)、GPU 并行计算、以及 ReLU 激活函数和 Dropout 正则化这些数学技巧。
- 2013–2017:Word2Vec、GloVe 等词嵌入(Word Embedding)技术让神经网络处理文本成为可能。Attention 机制和 2017 年的 Transformer 架构彻底改变了序列建模的表示范式——从定长向量到动态加权。
- 2018–至今:预训练-微调(Pre-training + Fine-tuning)范式和 Scaling Law 表明,更大规模的数据和参数在合适的数学框架下能涌现出惊人的能力。
这条主线中,五个数学分支各自扮演了不可替代的角色。线性代数定义了表示的语言(向量、矩阵、张量)。微积分提供了学习表示的工具(梯度下降、反向传播)。概率论让表示能够表达不确定性并给出严谨的训练目标(最大似然估计、交叉熵)。优化理论让大规模表示的学习在计算上可行(SGD、Adam、Batch Normalization)。信息论给出了"什么是一个好的表示"的评价标准(熵、互信息、KL 散度)。
接下来的五章,我们沿着"表示学习"这条主线,逐一展开每个分支的核心概念、它在 AI 中的具体应用,以及它在历史上解决的是哪个瓶颈问题。
第一章:线性代数——表示的语言
1.1 从特征工程到向量化
在深度学习之前的时代,机器学习工程师的主要工作是"特征工程"(Feature Engineering)。假如你要写一个程序识别手写数字,你需要告诉程序:图像的像素值矩阵(Pixel Matrix)、每个像素周围的梯度方向、连通区域的几何特征。所有这些特征在被送入模型之前,最终都被整理成一个向量(Vector)。
向量是什么?它不仅仅是一列数字。在线性代数中,向量是向量空间(Vector Space)中的一个点。这个空间有加法和数乘两种运算,这意味着我们可以对数据进行线性组合(Linear Combination)——这正是神经网络第一层在做的事情。
1958 年,Frank Rosenblatt 提出的感知机(Perceptron)本质上是一个线性二分类器:
输出 = sign(w · x + b
其中 w 是权重向量,x 是输入向量,b 是偏置。这个公式的几何意义是:用一个超平面(Hyperplane)将向量空间分成两半。感知机的学习规则非常简单——如果分类错误,就沿着错误的方向调整权重。这个规则可以被看作是梯度下降的原始形式,虽然当时 Rosenblatt 并没有从梯度的角度去理解它。
Minsky 和 Papert 在 1969 年出版的《Perceptrons》中从数学上证明了:感知机只能解决线性可分(Linearly Separable)的问题,而像 XOR 这样的基本非线性问题它永远无法解决。这个证明直接导致了第一次 AI 寒冬。其根本原因不是感知机算法不好,而是"单层线性表示"的表达能力有限。
1.2 向量空间中的语义:词嵌入的启示
快进到 2013 年。Tomas Mikolov 在 Google 提出了 Word2Vec,这个算法让整个 NLP 领域发生了范式转变。Word2Vec 的核心洞见是:每个词可以被训练为一个稠密向量(Dense Vector),向量之间的几何关系编码了语义关系。
经典例子:
vector("国王") - vector("男人") + vector("女人") ≈ vector("女王"
这个看似神奇的等式,本质上是向量空间中的线性运算。词嵌入向量被训练出来后,"男性"和"女性"之间的差异向量,"君主"和"统治者"的语义方向,都可以通过简单的向量加减来捕捉。相似度计算(Similarity Computation)就是两个向量的余弦相似度(Cosine Similarity)。
为什么这很重要?因为在 Word2Vec 之前,NLP 使用的是独热编码(One-Hot Encoding)——词表大小为 V 时,每个词是一个 V 维的稀疏向量,只有一个位置是 1。独热编码有两个致命缺陷:维度灾难(Curse of Dimensionality)——V 通常是数万到数十万,以及完全丢失语义关系——"猫"和"狗"的向量距离和"猫"和"哲学"没有区别。
稠密向量嵌入(Dense Embedding)解决了这两个问题:维度降低到几百,且语义相近的词在向量空间中的距离也近。从独热到稠密,是表示效率的一次飞跃,线性代数提供了完成这次飞跃的数学语言。
在今天的 Transformer 大模型中,每一个 token(子词单元)在模型内部都被表示为一个向量,整个序列是一个 3 维张量(Tensor)——(batch_size, sequence_length, hidden_dim)。所有计算——注意力(Attention)、前馈(Feed-Forward)、层归一化(Layer Normalization)——都是张量运算,底层由 GPU 上高度优化的矩阵乘法库(cuBLAS)执行。
1.3 矩阵分解与降维:SVD 的故事
矩阵分解(Matrix Factorization)在 AI 历史上有一个有趣的插曲。2006 年的 Netflix Prize 比赛要求参赛者预测用户对电影的评分。获胜方案使用的是一种叫做奇异值分解(Singular Value Decomposition, SVD)的技术——将用户-电影评分矩阵分解为用户因子矩阵和电影因子矩阵的乘积。
SVD 的数学形式是 A = UΣVᵀ,其中 Σ 是对角矩阵,对角线上的奇异值(Singular Values)从大到小排列。关键洞察是:最大的几个奇异值就保留了矩阵中的主要信息。 截断后面的奇异值,我们就得到了一个低秩近似(Low-Rank Approximation)——这正是降维和压缩的数学原理。
在推荐系统中,SVD 等价于将用户和物品映射到一个共享的隐因子空间(Latent Factor Space)——又一个"表示学习"的例子。在深度学习中,SVD 被广泛用于模型压缩:对预训练权重矩阵做低秩分解,参数量可以减少 80% 以上而精度损失很小。
1.4 历史回顾:为什么 GPU 恰好适合矩阵乘法
线性代数自 19 世纪就已经成熟(Cayley、Sylvester 等人的工作),为什么直到 2012 年才引爆深度学习?答案在于——计算的物质条件成熟了。
矩阵乘法具有天然的并行性:输出矩阵的每个元素可以由独立的线程计算,不需要跨线程通信。GPU(Graphics Processing Unit)本质上是一台大规模并行矩阵乘法器——它设计出来本是为了在屏幕上实时渲染三角形网格,而这个渲染管线的核心操作恰好也是 4×4 变换矩阵的乘法。
2012 年,Alex Krizhevsky 用两块 GTX 580 GPU 训练 AlexNet,将神经网络的计算时间从几周缩短到几天。当计算不再是瓶颈时,早已成熟的线性代数理论终于可以在大规模数据上发挥作用。
与此同时,PyTorch 和 TensorFlow 等框架的出现,将矩阵运算和张量运算封装为自动微分(Automatic Differentiation, Autograd)的原语,让研究者可以像搭积木一样组合矩阵运算和梯度计算,进一步加速了研究迭代。
第二章:微积分——让模型"学习"的引擎
2.1 为什么感知机不能学习 XOR——非线性激活的数学根源
1969 年 Minsky 和 Papert 对感知机的批评在数学上是严格的:单层网络的输出是输入的线性函数,而 XOR 问题的两类数据在二维平面上不是线性可分的。要突破这个限制,必须引入非线性。
1986 年,Rumelhart、Hinton 和 Williams 发表了那篇里程碑式的论文《Learning representations by back-propagating errors》,给出了一个可行的方案:在两层线性变换之间插入一个可微的非线性函数(激活函数,Activation Function),然后用链式法则计算梯度。这个算法就是反向传播(Backpropagation, BP)。
反向传播本身不是新的学习算法——参数更新的主体仍然是梯度下降。它的贡献在于:提供了一种高效计算深度网络中所有参数梯度的方法。 在此之前,人们不知道如何训练多于一层的神经网络。
从历史角度看,链式法则是微积分诞生时就有的基本定理(Leibniz, Newton, 17 世纪),反向传播的数学没有任何新颖之处。它的"重新发现"之所以重要,是因为它恰好解决了多层网络训练的工程瓶颈。这完美诠释了本文的主线:数学工具早已存在,但只有当计算条件和问题规模使之可行时,它才会引发技术革命。
2.2 梯度下降:下山算法
让我们形式化"学习"的定义。给定一个数据集 D = {(xᵢ, yᵢ)} 和一个模型 f(x; θ),其中 θ 是参数,我们定义一个损失函数(Loss Function)L(θ) 来衡量模型预测与真实标签之间的差距。学习的目标是:
θ* = argmin_θ L(θ
如何找到使 L 最小的 θ?如果 L 是凸函数(Convex Function),我们可以令导数为零解出解析解。但神经网络的损失函数对参数 θ 是非凸的(Non-Convex),没有解析解。
梯度下降(Gradient Descent, GD)提供了一个迭代方法:从随机初始化的 θ₀ 开始,每一步沿着当前点的梯度 ∇L(θₜ) 的负方向走一小步:
θ_{t+1} = θ_t − η · ∇L(θ_t
η 是学习率(Learning Rate),控制步长大小。
梯度的几何含义是:函数在 θₜ 处上升最快的方向。因此负梯度就是下降最快的方向。在高维空间中,"方向"是一个向量,指向参数空间中损失减少最快的方向。
2.3 链式法则与反向传播的机械拆解
考虑一个三层网络:
h₁ = σ(W₁x + b₁
h₂ = σ(W₂h₁ + b₂
ŷ = W₃h₂ + b₃
L = (ŷ − y)²
要计算 ∂L/∂W₁,我们沿着计算路径往回走:
∂L/∂W₁ = (∂L/∂ŷ) · (∂ŷ/∂h₂) · (∂h₂/∂a₁) · (∂a₁/∂h₁) · (∂h₁/∂W₁ 其中 a₁ = W₁x + b₁ 是第一层的线性输出,h₁ = σ(a₁) 是激活后的输出。
反向传播就是从 L 开始,逐层向后计算每个中间变量的梯度。这个过程可以高效地实现为:正向传播时缓存所有中间结果,反向传播时用链式法则逐层计算梯度。反向传播的时间复杂度与正向传播相同,这是它如此实用的关键。
2.4 激活函数的历史选择:Sigmoid → Tanh → ReLU
激活函数的选择不是随意的,它受制于微积分中的导数行为:
-
Sigmoid(σ(x) = 1 / (1 + e⁻ˣ)):输出范围 (0, 1),适合表示概率。但在两端导数趋近于零(饱和区,Saturation Region)。1990 年代到 2000 年代初期的网络使用 Sigmoid,当网络超过 5–6 层时,连乘大量接近零的导数导致梯度消失(Vanishing Gradient)——浅层权重几乎不更新,网络无法有效训练。
-
Tanh(tanh(x) = (eˣ − e⁻ˣ) / (eˣ + e⁻ˣ)):输出范围 (−1, 1),零中心化比 Sigmoid 好,但仍然存在饱和区。
-
ReLU(Rectified Linear Unit, ReLU(x) = max(0, x)):2010 年由 Nair 和 Hinton 引入深度网络。正半轴导数为常数 1,负半轴导数为 0。1 的导数在链式法则中不会衰减,因此可以在数十层甚至上百层网络中传播梯度。ReLU 是 AlexNet 成功的关键之一。 当然它也有问题:负半轴梯度恒为零,可能导致"神经元死亡"(Dying ReLU)——一旦权重更新使输入落入负半轴,该神经元就不会再更新了。后续改进包括 Leaky ReLU、ELU 和 GELU(GPT 系列使用的激活函数)。
2.5 历史回顾:为什么反向传播在 1986 年才"被发现"
早在 1960 年代,控制论领域的 Kelley (1960) 和 Bryson (1961) 就已经推导出了类似反向传播的算法。1974 年 Paul Werbos 在博士论文中也独立提出了反向传播。但这些工作几乎没有引起注意。
原因除了计算资源不足外,还有一个文化因素:当时 AI 主流的符号主义(Symbolic AI)阵营认为真正的智能来自逻辑推理和符号操作,而非数值优化。1986 年 Rumelhart 等人的工作之所以产生巨大影响,除了方法的改进外,更重要的是他们在认知科学界做的推广——他们展示了一个简单的网络可以通过学习自动发现数据中的规律,这正好回应了联结主义(Connectionism)思潮的兴起。
这个故事告诉我们:数学理论的成熟不等于它能被应用的时机成熟。数据、计算、文化土壤缺一不可。
第三章:概率论与统计——不确定性的数学
3.1 从确定性到概率:Softmax 的诞生
早期的神经网络输出的是一个实数,直接用于回归或分类的阈值判断。但 1990 年代统计学习理论的兴起让人们意识到:模型不仅需要预测,还需要表达对这种预测的置信度。
Softmax 函数在 1989 年由 Bridle 引入神经网络,它的形式是:
Softmax(z)ᵢ = e^zᵢ / Σⱼ e^zⱼ
它将任意实数向量 z 转化为一个概率分布(Probability Distribution)——所有输出为正且和为 1。这打开了用概率论工具分析神经网络的大门。
3.2 最大似然估计:损失函数的来源
模型输出是一个概率分布后,训练目标就自然而然地来自最大似然估计(Maximum Likelihood Estimation, MLE)。
给定数据集 D = {(xᵢ, yᵢ)},模型 f(x; θ) 输出条件概率 p(y|x; θ)。似然函数是:
L(θ) = Πᵢ p(yᵢ | xᵢ; θ
取对数变成求和:
log L(θ) = Σᵢ log p(yᵢ | xᵢ; θ
最大化对数似然等价于最小化负对数似然(Negative Log-Likelihood, NLL)。对于分类问题,p(y|x) 是 Softmax 输出的分类分布(Categorical Distribution),NLL 就是交叉熵损失(Cross-Entropy Loss)。对于回归问题,如果假设 p(y|x) 是高斯分布(Gaussian Distribution),NLL 等价于均方误差(Mean Squared Error, MSE)。
为什么要强调这些对应关系? 因为当你在 PyTorch 中调用 nn.CrossEntropyLoss() 时,理解它背后的 MLE 框架意味着你明白:这个损失函数不是随意选择的,而是从概率假设中推导出来的"最优"选择。
3.3 贝叶斯观点:在不确定性中学习
MLE 将参数 θ 看作固定但未知的常数。贝叶斯(Bayesian)观点则不同:参数本身是随机变量,我们通过数据来更新对参数的信念。
贝叶斯定理(Bayes' Theorem):
P(θ | D) = P(D | θ) · P(θ) / P(D
- P(θ) 是先验(Prior)——在看到数据前对参数的假设
- P(D|θ) 是似然(Likelihood)
- P(θ|D) 是后验(Posterior)——看到数据后的更新信念
贝叶斯方法在深度学习中的一个重要应用是贝叶斯神经网络(Bayesian Neural Network, BNN),其中的参数是分布而非点估计。这在医疗诊断、自动驾驶等需要可靠性估计的场景中非常重要。但由于大模型有数十亿参数,精确的贝叶斯推断是不可行的,实践中使用变分推断(Variational Inference, VI)或蒙特卡洛 Dropout(Monte Carlo Dropout)来近似。
3.4 分布与损失函数的完整映射
| 任务类型 | 输出分布假设 | 对应的损失函数 |
|---|---|---|
| 二分类 | 伯努利分布(Bernoulli) | 二元交叉熵(BCE Loss) |
| 多分类 | 分类分布(Categorical) | Softmax + 交叉熵 |
| 回归(无异常值) | 高斯分布(Gaussian) | 均方误差(MSE/L2 Loss) |
| 回归(有异常值) | 拉普拉斯分布(Laplace) | 平均绝对误差(MAE/L1 Loss) |
3.5 历史回顾:统计学习 vs 神经网络
1990 年代到 2000 年代初,统计学习理论(Statistical Learning Theory)主导了机器学习领域。Vapnik 的支持向量机(Support Vector Machine, SVM)、概率图模型(Probabilistic Graphical Model)等方法在理论上更优美(凸优化保证全局最优),在小数据上表现更好。
这个时期神经网络的研究相对边缘化——人们普遍认为神经网络是"缺乏理论基础的调参艺术"。直到 2012 年 AlexNet 在 ImageNet 上以巨大优势获胜,人们的注意力才重新回到神经网络。讽刺的是,今天的 Transformer 架构中的注意力机制(Attention)其实可以看作是一种软性概率对齐——每个 token 对其他 token 的注意力权重就是一个概率分布,这是概率论思想在神经网络内部的深化。
第四章:优化理论——训练算法的脊梁
4.1 从批量梯度下降到随机梯度下降
有了表示的数学语言(线性代数)和学习梯度的方法(微积分), 下一个问题是:如何在实际中高效地完成学习?
全批量梯度下降(Batch Gradient Descent)每次迭代需要计算全部 N 个样本的损失梯度, 当 N 达到百万级时,一次迭代就可能需要几分钟——训练一个模型需要几个月。
4.2 动量法与自适应学习率
SGD 虽然快,但有噪声。动量法(Momentum)引入了"惯性"概念: v = beta * v + (1-beta) * grad theta = theta - lr * v 动量让梯度方向在平坦区域也能持续前进,穿越鞍点(Saddle Point)。
Adaptive 方法(AdaGrad, RMSProp, Adam)为每个参数分配独立的学习率。 Adam(Adaptive Moment Estimation)同时维护梯度的一阶矩(动量)和二阶矩(梯度平方) 的指数移动平均,是目前最常用的深度学习优化器。
4.3 Normalization 的数学
Batch Normalization(Ioffe & Szegedy, 2015)解决了训练深层的"内部协变量偏移"问题。 它对每个 mini-batch 在通道维度上做标准化:减去均值除以标准差,再学习缩放和平移参数。 从优化角度看,它让损失函数的等高线更接近球形,梯度下降可以取更大的步长。
Layer Normalization(Ba et al., 2016)则是在特征维度上做标准化, 在 Transformer 中被广泛使用。
4.4 正则化的优化视角
L2 正则化(Weight Decay)给损失加上权重的平方和: L' = L + lambda * sum(w^2 从优化角度看,这等价于在 L2 球约束下做优化。 L1 正则化促进稀疏性,因为 L1 球的顶点恰好在坐标轴上。
Dropout(Srivastava et al., 2014)随机丢弃神经元, 可以理解为在训练时隐式地集成指数多个子网络。
4.2 动量与自适应学习率
SGD 虽然解决了计算效率问题,但在损失函数的"峡谷"地形中 (一个方向梯度很大,另一个方向梯度很小),SGD 会剧烈震荡。 为此引入了动量(Momentum, Polyak 1964),但在深度学习中的广泛应用要等到 2010 年代:
v_{t+1} = β·v_t + (1−β)·∇L(θ_t
θ_{t+1} = θ_t − η·v_{t+1}
物理直观:一个小球滚下山坡,遇到平坦的鞍点(Saddle Point)时, 凭借惯性也能继续滚动过去。β 通常在 0.9 左右。
2014 年,Kingma 和 Ba 提出了Adam(Adaptive Moment Estimation), 将动量与 RMSProp 的自适应学习率结合。这是当前最广泛使用的优化器。 Adam 为每个参数维护两个状态:一阶矩(梯度的指数移动平均)和二阶矩 (梯度平方的指数移动平均)。每个参数的更新步长由这两个矩的比值决定。
历史意义:在 Adam 出现之前,选择优化器和学习率需要大量手动调试。 Adam 的默认参数(η=0.001, β₁=0.9, β₂=0.999)在大多数任务上表现良好, 大大降低了深度学习的应用门槛。这是优化理论从"专家调参"到"可靠工具"的转折点。
4.3 Batch Normalization 与 Layer Normalization
除了优化器,归一化(Normalization)技术是训练深层网络的另一个关键。
2015 年,Sergey Ioffe 提出了批归一化 (Batch Normalization, BN),对每个小批量的数据做归一化。 BN 的数学操作是:对每个特征维度,减去当前批次的均值,除以标准差, 再乘以可学习的缩放参数 γ 和偏移参数 β。
BN 解决的核心问题是内部协变量偏移 (Internal Covariate Shift)——前层的参数更新导致后层的输入分布不断变化, 迫使后层不断适应新的分布,收敛变慢。BN 让每层的输入分布保持稳定。
从优化理论角度看,BN 还让损失曲面更加"平滑"(Smoother), 使得梯度下降更容易找到最小值。在 ResNet 中,BN 与残差连接(Residual Connection, He et al. 2015)配合使用,使得 152 层的网络成为可能——而 2012 年的 AlexNet 只有 8 层。
2016 年,针对序列模型和 Transformer,提出了层归一化 (Layer Normalization, LN)。与 BN 在批次维度上归一化不同, LN 在特征维度上归一化。这使得 LN 不受批次大小影响, 且对序列长度的变化鲁棒——这正是 Transformer 所需的特性。 今天的 GPT、BERT、LLaMA 等大模型全部使用 Pre-LayerNorm (LN 放在注意力/前馈之前)的架构。
4.4 正则化作为约束优化
正则化(Regularization)解决的核心问题是过拟合——模型在训练集上表现完美但在测试集上很差。
L2 正则化(Weight Decay)给损失函数增加 ‖θ‖₂² 项。从优化理论看, 这等价于在权重空间中以原点为中心施加了一个球形约束, 限制了权重的可行域(Feasible Region)。从贝叶斯角度看, 它等价于高斯先验下的 MAP 估计。从信息论角度看, 它防止权重过大——因为大权重意味着输出对输入的微小变化非常敏感, 本质上是在压制模型的"复杂度"。
Dropout(Srivastava et al. 2014)则是另一种正则化: 每次训练时随机丢弃一部分神经元。这迫使网络不依赖任何一个单一的"专家"神经元, 而是发展出冗余的、鲁棒的表示。Dropout 可以理解为一种 模型集成(Model Ensemble)的近似——每次 Dropout 相当于训练了一个不同的子网络。
4.5 历史回顾:为什么优化器的发展如此重要
从 1986 年的朴素 SGD 到 2014 年的 Adam,历时 28 年。 为什么这么慢?
因为在 1980-2000 年代,神经网络规模太小(几百到几千参数), 朴素 SGD 已经够用。当网络规模在 2010 年代增长到百万、十亿参数时, SGD 的震荡和敏感性问题变得不可忽视。动量法、RMSProp、Adam 等优化器 的提出不是理论上的突然突破,而是工程需求驱动的渐进改进—— 每个新优化器都解决了前一个在实际训练中暴露的特定问题。
亚当·斯密的"看不见的手"用在这里很合适:每个研究者都在解决自己遇到的训练问题, 而所有改进的总和最终让训练十亿参数模型成为可能。
第五章:信息论——表示的评价标准
5.1 熵:不确定性的量化
1948 年,Claude Shannon 在贝尔实验室发表了《通信的数学理论》,信息论由此诞生。
熵(Entropy)是信息论中最基本的概念。对于离散随机变量 X: H(X) = -Σᵢ P(xᵢ) log₂ P(xᵢ 如果 X 总是取同一个值,H=0——没有不确定性;如果 X 均匀分布在 8 个值上,H=3 bit。 熵给出了无损编码一个变量的理论最小平均比特数。
5.2 交叉熵与 KL 散度——分类损失的数学根源
交叉熵(Cross-Entropy)H(P,Q) = -Σᵢ Pᵢ log Qᵢ 可以分解为 H(P) + D_KL(P‖Q)。第一部分 H(P) 是常数,第二部分 KL 散度(Kullback-Leibler Divergence)衡量两个分布之间的差异。KL 散度不对称——"用 Q 近似 P"和"用 P 近似 Q"会得到不同的最优解,这在变分推断(Variational Inference)中至关重要。
多分类任务中最小化交叉熵,就是让预测分布 Q 逼近真实分布 P——这恰好是"好的表示"的信息论定义:表示应该尽可能保留真实标签的信息,同时丢弃与任务无关的噪声。
5.3 互信息与信息瓶颈
互信息(Mutual Information, MI)I(X;Y) = D_KL(P(X,Y)‖P(X)P(Y)) 回答"知道 X 能多大程度上减少 Y 的不确定性"。自监督学习(Self-Supervised Learning)常以最大化互信息为目标——学到的表示应保留输入中最关键的信息。
5.4 历史回顾:信息论为何直到最近才被重视
有趣的是,信息论的数学框架在 1948 年就已经非常成熟,但在深度学习的早期(1980s-2000s),它的应用主要集中在编码理论和通信领域。直到 2010 年代后期,当研究者开始试图理解"神经网络内部到底在做什么"时,信息论才以信息瓶颈理论的形式回归:一个训练好的深度网络,其各层的表示会经历"拟合"然后"压缩"两个阶段(Saxe et al., 2018),压缩阶段就是熵和互信息在起作用。
在今天的 AI 安全(AI Safety)和对齐(Alignment)研究中,信息论也开始扮演越来越重要的角色——例如用互信息衡量模型是否学会了隐藏目标。
第六章:五张牌如何打到一起——以 LLM 为例
沿着"表示学习"的主线,我们回顾了五十年来 AI 数学基础的各个侧面。现在让我们用一个具体的大语言模型(Large Language Model, LLM)的训练和推理过程,展示这五个数学分支如何在同一个系统中协同工作。
6.1 训练阶段
数据表示:原始文本先被 tokenizer 切分成子词单元,每个 token 通过嵌入矩阵(Embedding Matrix)映射为一个稠密向量。Embedding 矩阵本身就是一个可训练的参数矩阵,其维度为 |V| × d(词表大小 × 嵌入维度)——线性代数。从表示学习的角度看,这是"从离散符号到连续向量空间"的关键一步。
自注意力机制(Self-Attention):Transformer 的核心计算是 Q = XW_Q, K = XW_K, V = XW_V,然后计算 Attention = softmax(QKᵀ/√d)V。其中 QKᵀ 是矩阵乘法(线性代数),softmax 将相似度分数转换为概率分布(概率论),再加权聚合 V。整个注意力层可以理解为让每个 token 根据与其他 token 的相关性动态调整自己的表示——这是表示学习在序列建模中最优雅的体现。
损失计算:模型输出一个词表大小的概率分布,与真实下一个 token 的 one-hot 分布计算交叉熵(信息论 + 概率论)。
反向传播:链式法则将损失梯度逐层回传,更新每个参数(微积分)。
参数更新:Adam 优化器综合梯度的历史信息,为每个参数自适应地调整学习率(优化理论)。
正则化:Weight Decay(L2 正则化)限制权重范数(优化理论的约束);Dropout 防止过拟合。
6.2 推理阶段
前向传播:用户输入的文本经过同样的嵌入→注意力→前馈网络流程,生成下一个 token 的概率分布(线性代数 + 概率论)。
解码策略:从概率分布中选择输出 token 的方式——贪心解码(Greedy Decoding)、温度采样(Temperature Sampling)、Top-p 采样(Nucleus Sampling)——都建立在概率分布的操作之上。
不确定性表达:输出分布的熵高时模型"不确定"(多个候选概率接近),熵低时"很确定"(一个候选占绝对优势)——信息论。
6.3 回顾:五个分支在 LLM 中的分工
| 数学分支 | 在 LLM 中扮演的角色 | 如果没有它 |
|---|---|---|
| 线性代数 | 数据的表示语言(嵌入、注意力矩阵、全连接层) | 无法将文本转化为可计算的数字 |
| 微积分 | 学习机制(反向传播、梯度计算) | 模型无法从数据中学习 |
| 概率论 | 不确定性的建模(Softmax、交叉熵损失、采样) | 模型只能输出确定性值,无法表达置信度 |
| 优化理论 | 训练算法(Adam、学习率调度、正则化) | 百万到万亿参数无法被有效更新 |
| 信息论 | 表示质量的度量(交叉熵、互信息) | 没有客观标准评判"好表示" |
第七章:延伸——其他数学工具的角色
7.1 图论与图神经网络
图论(Graph Theory)为图神经网络(GNN)提供了描述图结构的核心工具:邻接矩阵(Adjacency Matrix)编码节点之间的连接关系,拉普拉斯矩阵(Laplacian Matrix L = D − A)的谱分解揭示了图的结构性分量的频率信息。谱方法 GNN(如 ChebNet、GCN)利用图拉普拉斯矩阵的特征向量做图傅里叶变换,在频域中定义卷积操作[1]。然而,谱方法的局限在于其拉普拉斯矩阵的计算依赖于固定的图结构——当图结构在训练或推理中发生变化时,傅里叶基需要重新计算。
空间方法 GNN 的核心是消息传递(Message Passing)范式:每个节点通过聚合函数(如平均、求和、注意力加权)收集邻居节点的特征信息,再通过更新函数(如 MLP)将聚合信息与自身特征融合,生成新的节点表示[2]。经过 K 轮消息传递,节点的感受野(Receptive Field)扩大至其 K 阶邻居。代表性模型包括 GCN(Kipf & Welling, 2017)使用对称归一化的邻接矩阵进行一阶邻居聚合[3],GAT(Graph Attention Network)引入注意力机制为不同邻居分配可学习的加权系数[4],GraphSAGE 通过采样固定数量的邻居来实现对大图的归纳式学习[5]。
消息传递范式的数学表达能力受到Weisfeiler-Lehman(WL)图同构测试的约束——理论上,消息传递 GNN 的表达能力不超过 1-WL 测试[6]。这一理论界限催生了高阶 GNN(如 k-GNN、δ-GNN)的研究,它们通过编码子图结构提高表达能力,但计算复杂度也随之呈指数增长。
在 AI 应用层面,GNN 在分子性质预测(QM9 数据集)、推荐系统(PinSage)、知识图谱推理(R-GCN)和组合优化(TSP 求解)等领域取得了显著成果。特别是 GNN 与 Transformer 的结合——如 Graph Transformer 和 Graphormer——正在成为图表示学习的主流范式[7]。
7.2 微分几何与流形假设
流形假设(Manifold Hypothesis)认为高维数据(如图像、文本、语音)的实际概率质量集中在嵌入空间中的一个远低维的流形结构上。这一假设是许多降维和表示学习方法的理论基础。t-SNE 和 UMAP 等流形学习方法通过在高维空间中保持局部邻域结构,将数据投影到 2D/3D 可视空间,揭示出在原始空间中不可见的聚类和拓扑结构。从数学上讲,t-SNE 优化的是高维空间和低维空间中点对条件概率分布之间的 KL 散度,而 UMAP 基于 Riemannian 几何理论,先在高维空间构建模糊单纯集(Fuzzy Simplicial Set),再在低维空间中寻找最逼近该拓扑结构的投影[8]。
流形假设在深度学习中的另一个关键应用是扩散模型(Diffusion Model)。扩散模型的前向过程通过逐步添加高斯噪声将数据分布平滑地退化为标准正态分布,其数学本质是在数据流形的切空间上施加随机扰动。逆向过程的核心——得分匹配(Score Matching)——则是在估计数据对数概率密度的梯度方向 ∇_x log p(x),而这个梯度在流形假设下指向数据流形的垂直方向[9]。Song 和 Ermon 在 2019 年提出的 Noise Conditional Score Network(NCSN)[10] 和 Ho 等人在 2020 年提出的 Denoising Diffusion Probabilistic Model(DDPM)[11] 系统地将得分匹配与扩散过程相结合,在图像生成、分子设计和语音合成中取得了突破性性能。
7.3 最优传输理论
最优传输(Optimal Transport, OT)理论提供了一种在概率分布之间定义距离和映射的严格数学框架。Wasserstein 距离(推土机距离)衡量的是将一个概率分布"搬运"到另一个概率分布所需的最小代价[12]。在生成对抗网络(GAN)中,Wasserstein GAN(WGAN)用 Wasserstein-1 距离替代原始的 Jensen-Shannon 散度作为训练目标,有效解决了传统 GAN 训练中的模式坍塌和梯度不稳定问题[13]。
在表示学习中,OT 被用于对齐不同模态的表示空间(如 CLIP 的图文对齐)和域适应(Domain Adaptation)中的特征分布匹配。Sinkhorn 算法通过熵正则化将 OT 的计算复杂度从 O(n³ log n) 降低到近似线性,使 OT 在大规模深度学习中的实际应用成为可能[14]。
总结:回到主线
文章开头我们提出了一个问题:为什么五十年历史的数学理论,在 2012 年之后突然迸发出如此强大的力量?
顺着"表示学习"这条主线,我们可以回答:五个数学分支各自解决了表示学习中的一个瓶颈——线性代数提供了表示的语言,微积分提供了学习表示的方法,概率论给了表示处理不确定性的框架,优化理论让大规模表示的学习成为可能,信息论给出了评价表示质量的标准。每个分支的理论在上世纪中叶就已经相当完备,但它们的大规模协作需要三个外部条件的成熟——数据(互联网的普及)、计算(GPU 的并行能力)和算法(反向传播 + Adam + Batch Norm 的组合)。当这三个条件在 2010 年代同时具备时,数学的种子在肥沃的土壤中爆发了。
与传统学科不同,AI 的数学不是一种"先学后用"的工具——研究者在构建模型的过程中往往先直觉地设计出有效的结构,然后回过头来用数学解释它为什么有效。ReLU 先于它的理论分析,Batch Normalization 先于它的理论理解,Attention 机制也得出了令人惊讶的结果之后才被数学重新审视。
但这不意味着数学是事后诸葛亮。没有线性代数,你无法理解为什么 GPU 比 CPU 快一百倍;没有微积分,你无法调试一个不收敛的网络;没有概率论,你无法判断模型为什么在某个输入上表现差;没有优化理论,你无法为训练选择正确的超参数;没有信息论,你无法衡量不同的架构设计谁更好。
推荐学习路径
如果这篇文章激发了你进一步学习的兴趣,建议按以下顺序深入:
- 《Deep Learning》(Goodfellow, Bengio, Courville, 2016)——前三章覆盖了所需的全部数学基础。URL: https://www.deeplearningbook.org
- 《Mathematics for Machine Learning》(Deisenroth, Faisal, Ong, 2020)——偏实践,有 Python 代码。URL: https://mml-book.github.io
- 《Linear Algebra Done Right》(Axler, 4th ed., 2024)——重新理解线性代数。URL: https://linear.axler.net
- 《Pattern Recognition and Machine Learning》(Bishop, 2006)——概率论视角的 ML 经典。URL: https://www.microsoft.com/en-us/research/people/cmbishop/prml-book/
- 《The Elements of Statistical Learning》(Hastie, Tibshirani, Friedman, 2nd ed., 2009)——统计学习的圣经。URL: https://hastie.su.domains/ElemStatLearn/
在线资源
- 3Blue1Brown 线性代数的本质(YouTube 系列)——直观理解向量、矩阵和线性变换。URL: https://www.3blue1brown.com/topics/linear-algebra
- CS231n 斯坦福课程笔记——卷积神经网络与视觉识别的数学基础。URL: https://cs231n.github.io
- The Annotated Transformer——Transformer 架构的逐行 PyTorch 实现与数学注释。URL: https://nlp.seas.harvard.edu/2018/04/03/attention.html
- ** distill.pub **——深度学习数学原理解释的前沿博客。URL: https://distill.pub
本文以"表示学习"为主线展开,你可以通过搜索"Representation Learning"、"Representation Learning survey"或"The quest for better representations in AI"找到更多相关的学术综述。如果你的研究方向涉及深度学习、自然语言处理或计算机视觉,建议将本文涉及的五个数学分支中最不熟悉的那一个作为你的下一个学习目标——因为现实中的 AI 问题从来不会只使用一个分支的知识。
参考文献
[1] Bruna J, Zaremba W, Szlam A, LeCun Y. Spectral networks and locally connected networks on graphs [C]. ICLR, 2014. arXiv: 1312.6203
[2] Gilmer J, Schoenholz S S, Riley P F, et al. Neural message passing for quantum chemistry [C]. ICML, 2017: 1263-1272. arXiv: 1704.01212
[3] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks [C]. ICLR, 2017. arXiv: 1609.02907
[4] Veličković P, Cucurull G, Casanova A, et al. Graph attention networks [C]. ICLR, 2018. arXiv: 1710.10903
[5] Hamilton W L, Ying R, Leskovec J. Inductive representation learning on large graphs [C]. NeurIPS, 2017: 1024-1034. arXiv: 1706.02216
[6] Xu K, Hu W, Leskovec J, Jegelka S. How powerful are graph neural networks? [C]. ICLR, 2019. arXiv: 1810.00826
[7] Dwivedi V P, Bresson X. A generalization of transformer networks to graphs [J]. arXiv: 2012.09699, 2020.
[8] McInnes L, Healy J, Melville J. UMAP: Uniform manifold approximation and projection for dimension reduction [J]. JOSS, 2018, 3(29): 861. arXiv: 1802.03426
[9] Song Y, Ermon S. Generative modeling by estimating gradients of the data distribution [C]. NeurIPS, 2019: 11895-11907. arXiv: 1907.05600
[10] Song Y, Sohl-Dickstein J, Kingma D P, et al. Score-based generative modeling through stochastic differential equations [C]. ICLR, 2021. arXiv: 2011.13456
[11] Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models [C]. NeurIPS, 2020: 6840-6851. arXiv: 2006.11239
[12] Villani C. Optimal Transport: Old and New [M]. Springer, 2009. ISBN: 9783540710493. URL: https://www.springer.com/gp/book/9783540710493
[13] Arjovsky M, Chintala S, Bottou L. Wasserstein GAN [C]. ICML, 2017: 214-223. arXiv: 1701.07875
[14] Cuturi M. Sinkhorn distances: Lightspeed computation of optimal transport [C]. NeurIPS, 2013: 2292-2300. URL: https://papers.nips.cc/paper_files/paper/2013/hash/af21d0c97db2e27e13572cbf59eb343d-Abstract.html
本文以"表示学习"为逻辑主线撰写。 发表日期:2026年5月30日