Auto-Encoding Variational Bayes

Introduction

论文的 introduction 部分我们略过，直接看 method 部分。

2. Method

本节中的策略可用于为具有连续潜在变量(隐变量)的各种有向图形模型推导下限估计器（随机目标函数）。我们在这里将自己限制在常见情况下：

我们有一个 i.i.d. 数据集，每个数据点都有潜在变量。
我们希望对（全局）参数执行最大似然（ML）或最大后验（MAP）推理，以及对潜在变量进行变分推理。

这里的潜在变量是什么就很值得玩味了。

2.1 问题场景(Problem Scenario)

让我们考虑一些数据集\(\mathbf{X} = \{\mathbf{x}^{(i)}\}_{i=1}^N\)，它由一些连续或离散变量\(x\)的\(N\)个i.i.d.样本组成。

我们假设数据是由某个随机过程生成的，涉及一个未观察到的连续随机变量\(z\)。该过程包括以下两个步骤：

1.从某个先验分布\(p_{\boldsymbol{\theta}^*}(\mathbf{z})\)生成一个值\(\mathbf{z}^{(i)}\)
2.值\(\mathbf{x}^{(i)}\)是从某个条件分布\(p_{\boldsymbol{\theta}^*}(\mathbf{x}|\mathbf{z})\)生成的

我们假设先验\(p_{\boldsymbol{\theta}^* }(\mathbf{z})\)和似然\(p_{\boldsymbol{\theta}^*}(\mathbf{x}|\mathbf{z})\)来自分布\(p_{\boldsymbol{\theta}}(\mathbf{z})\)和\(p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})\)的参数族，并且它们的概率密度函数（PDF）几乎在\(\boldsymbol{\theta}\)和\(\mathbf{z}\)的任何地方都是可微分的。

隐藏的挑战

然而，不幸的是，这个过程的很多内容都隐藏在我们看不见的地方：

我们不知道真实参数\(\boldsymbol{\theta}^*\)。
我们也不知道潜在变量\(\mathbf{z}^{(i)}\)的值。

非常重要的是，我们没有对边际或后验概率做出常见的简化假设。相反，我们在这里对一种通用算法感兴趣，该算法甚至可以在以下情况下有效工作：

难解性

边际似然难以处理：
边际似然\(p_{\boldsymbol{\theta}}(\mathbf{x}) = \int p_{\boldsymbol{\theta}}(\mathbf{z})p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})d\mathbf{z}\)的积分难以处理，因此我们无法评估或区分边际似然。
真实后验密度难以处理：
真实后验密度\[p_{\boldsymbol{\theta}}(\mathbf{z}|\mathbf{x}) = \frac{p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})p_{\boldsymbol{\theta}}(\mathbf{z})}{p_{\boldsymbol{\theta}}(\mathbf{x})}\]难以处理，因此不能使用期望最大算法。
积分复杂性：
任何合理的均场变分贝叶斯推断算法所需的积分也难以处理。这些难解性很常见，出现在中等复杂似然函数\(p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})\)的情况下，例如具有非线性隐藏层的神经网络。

数据集规模

数据集过大：
数据太多，批量优化成本太高。我们希望使用小批量甚至单个数据点进行参数更新。
基于采样的解决方案过慢：
基于采样的解决方案（例如蒙特卡罗期望最大算法）通常太慢，因为它通常涉及每个数据点昂贵的采样循环。

2.2 变分界(The variational bound)

边际似然由各个数据点的边际似然之和构成\(\log p_{\theta}(x^{(1)}, \cdots, x^{(N)}) = \sum_{i=1}^{N} \log p_{\theta}(x^{(i)})\)，其中每个项均可重写为： \[\begin{align} & \log p_{\boldsymbol{\theta}}(\mathbf{x}^{(i)})=D_{KL}(q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(i)})||p_{\boldsymbol{\theta}} (\mathbf{z}|\mathbf{x}^{(i)}))+\mathcal{L}(\boldsymbol{\theta},\boldsymbol{\phi};\mathbf{x}^{(i)})\tag{1} \end{align}\]

第一项的右侧是近似后验分布与真实后验分布之间的KL散度。由于该KL散度非负，第二项的右侧\(\mathcal{L}(\boldsymbol{\theta},\boldsymbol{\phi};\mathbf{x}^{(i)})\)被称为数据点 \(i\) 边缘似然的（变分）下界，其表达式可表示为： \[ \log p_{\boldsymbol{\theta}}(\mathbf{x}^{(i)})\geq\mathcal{L}(\boldsymbol{\theta},\boldsymbol{\phi};\mathbf{x}^{(i)})=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}\left[-\log q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})+\log p_{\boldsymbol{\theta}}(\mathbf{x},\mathbf{z})\right]\tag{2} \]

也可以写成如下形式： \[ \mathcal{L}(\boldsymbol{\theta},\boldsymbol{\phi};\mathbf{x}^{(i)})=-D_{KL}(q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(i)})||p_{\boldsymbol{\theta}}(\mathbf{z}))+\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(i)})}\left[\log p_{\boldsymbol{\theta}}(\mathbf{x}^{(i)}|\mathbf{z})\right]\tag{3} \]

我们需要对下界 \(\mathcal{L}(\theta, \phi; \mathbf{x}^{(i)})\) 关于变分参数 \(\phi\) 和生成参数 \(\theta\) 进行微分和优化。然而，下界关于 \(\phi\) 的梯度计算存在一定问题。针对此类问题的常规（朴素）蒙特卡洛梯度估计器为：

\[ \nabla_{\boldsymbol{\phi}}\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z})}\left[f(\mathbf{z})\right]=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z})}\left[f(\mathbf{z})\nabla_{q_{\boldsymbol{\phi}}(\mathbf{z})}\log q_{\boldsymbol{\phi}}(\mathbf{z})\right]\simeq\frac{1}{L}\sum_{l=1}^{L}f(\mathbf{z})\nabla_{q_{\boldsymbol{\phi}}(\mathbf{z}^{(l)})}\log q_{\boldsymbol{\phi}}(\mathbf{z}^{(l)}) \]

其中 \(\mathbf{z}^{(l)} \sim q_\phi(\mathbf{z} | \mathbf{x}^{(i)})\)。

该梯度估计器的方差极高，因此在实际应用中难以有效使用。

2.3 SGVB估计器（随机梯度变分贝叶斯估计器，Stochastic Gradient Variational Bayes 和 AEVB算法（自动编码变分贝叶斯，Auto-Encoding Variational Bayes

本节我们将介绍一种针对变分下界及其参数导数的实用估计方法。我们采用条件近似后验分布\(q_\phi(\mathbf{z} | \mathbf{x})\)的形式，但需要注意的是，该技术同样适用于非条件形式\(q_\phi(\mathbf{z})\)（即不依赖于x的情况）。

在满足第2.4节所述的特定温和条件下，对于选定的近似后验分布\(q_\phi(\mathbf{z} | \mathbf{x})\)，我们可以通过一个可微变换\(g_{\boldsymbol{\phi}}(\boldsymbol{\epsilon},\mathbf{x})\)对随机变量\(\widetilde{\mathbf{z}}\sim q_{\phi}(\mathbf{z}|\mathbf{x})\)进行重新参数化，其中\(\epsilon\)是一个辅助噪声变量： \[ \widetilde{\mathbf{z}}=g_\phi(\boldsymbol{\epsilon},\mathbf{x})\quad\mathrm{with~}\quad\boldsymbol{\epsilon}\sim p(\boldsymbol{\epsilon})\tag{4} \]

关于如何选择合适的分布 \(p(\boldsymbol{\epsilon})\) 和函数 \(g_\phi(\boldsymbol{\epsilon},\mathbf{x})\) 的一般性策略，请参阅第 2.4 节的内容。基于此，我们可以按以下方式构建关于 \(q_{\phi}(\mathbf{z}|\mathbf{x})\) 的期望函数 \(f(z)\) 的蒙特卡洛估计： \[ \mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(i)})}\left[f(\mathbf{z})\right]=\mathbb{E}_{p(\boldsymbol{\epsilon})}\left[f(g_{\boldsymbol{\phi}}(\boldsymbol{\epsilon},\mathbf{x}^{(i)}))\right]\simeq\frac{1}{L}\sum_{l=1}^{L}f(g_{\boldsymbol{\phi}}(\boldsymbol{\epsilon}^{(l)},\mathbf{x}^{(i)}))\quad\mathrm{where}\quad\boldsymbol{\epsilon}^{(l)}\sim p(\boldsymbol{\epsilon})\tag{5} \]

我们运用这一技术处理变分下界（公式(2)），由此得到通用的随机梯度变分贝叶斯（SGVB）估计量 \(\widetilde{\mathcal{L}}^A(\boldsymbol{\theta},\boldsymbol{\phi};\mathbf{x}^{(i)})\simeq\mathcal{L}(\boldsymbol{\theta},\boldsymbol{\phi};\mathbf{x}^{(i)})\)，其表达式为： \[\begin{aligned} & \widetilde{\mathcal{L}}^A(\boldsymbol{\theta},\boldsymbol{\phi};\mathbf{x}^{(i)})=\frac{1}{L}\sum_{l=1}^L\log p_{\boldsymbol{\theta}}(\mathbf{x}^{(i)},\mathbf{z}^{(i,l)})-\log q_{\boldsymbol{\phi}}(\mathbf{z}^{(i,l)}|\mathbf{x}^{(i)}) \\ & \mathrm{where}\quad\mathbf{z}^{(i,l)}=g_{\boldsymbol{\phi}}(\boldsymbol{\epsilon}^{(i,l)},\mathbf{x}^{(i)})\quad\mathrm{and}\quad\boldsymbol{\epsilon}^{(l)}\sim p(\boldsymbol{\epsilon}) \end{aligned}\tag{6} \]

通常，公式(3)中的KL散度\(D_{KL}(q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(i)})||p_{\boldsymbol{\theta}}(\mathbf{z}))\)可以解析计算，因此只需通过采样估计期望重构误差\(\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(i)})}\left[\log p_{\boldsymbol{\theta}}(\mathbf{x}^{(i)}|\mathbf{z})\right]\)。此时，KL散度项可解释为对\(\phi\)的正则化项，促使近似后验分布接近先验分布\(p_{\boldsymbol{\theta}}(\mathbf{z})\)。由此可以得到SGVB估计量的第二个版本\(\widetilde{\mathcal{L}}^B(\boldsymbol{\theta},\boldsymbol{\phi};\mathbf{x}^{(i)})\simeq\mathcal{L}(\boldsymbol{\theta},\boldsymbol{\phi};\mathbf{x}^{(i)})\)，对应公式(3)，该估计量通常比通用估计量具有更小的方差： \[\begin{aligned} & \widetilde{\mathcal{L}}^B(\boldsymbol{\theta},\boldsymbol{\phi};\mathbf{x}^{(i)})=-D_{KL}(q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(i)})||p_{\boldsymbol{\theta}}(\mathbf{z}))+\frac{1}{L}\sum_{l=1}^L(\log p_{\boldsymbol{\theta}}(\mathbf{x}^{(i)}|\mathbf{z}^{(i,l)})) \\ & \mathrm{where}\quad\mathbf{z}^{(i,l)}=g_{\boldsymbol{\phi}}(\boldsymbol{\epsilon}^{(i,l)},\mathbf{x}^{(i)})\quad\mathrm{and}\quad\boldsymbol{\epsilon}^{(l)}\sim p(\boldsymbol{\epsilon}) \end{aligned}\tag{7} \]

对于包含\(N\)个数据的数据集\(X\)，在给定多个数据的情况下，我们可以基于小批量数据构建完整数据集边际似然下界的估计量： \[\mathcal{L}(\boldsymbol{\theta},\boldsymbol{\phi};\mathbf{X})\simeq\widetilde{\mathcal{L}}^M(\boldsymbol{\theta},\boldsymbol{\phi};\mathbf{X}^M)=\frac{N}{M}\sum_{i=1}^M\widetilde{\mathcal{L}}(\boldsymbol{\theta},\boldsymbol{\phi};\mathbf{x}^{(i)})\tag{8} \] 其中，小批量数据\(\mathbf{X}^M=\{\mathbf{x}^{(i)}\}_{i=1}^M\)是从包含\(N\)个数据的完整数据集\(X\)中随机抽取的\(M\)个数据点子集。实验结果表明，只要小批量规模\(M\)足够大（例如\(M\)=100），每个数据的样本数\(L\)可设为1。我们可以计算梯度\(\nabla_{\boldsymbol{\theta},\boldsymbol{\phi}}\widetilde{\mathcal{L}}(\boldsymbol{\theta};\mathbf{X}^M)\)，并将所得梯度与随机优化方法（如SGD或Adagrad）结合使用。随机梯度的基本计算方法请参见Algorithm 1。

当我们分析公式(7)给出的目标函数时，其与自编码器的关联就变得清晰可见。其中，第一项（近似后验分布与先验分布的KL散度）充当正则化项，而第二项则是期望负重构误差。函数\(g_{\phi}(.)\)的设计使得它能将数据点\(x^{(i)}\)和随机噪声向量\(\epsilon^{(l)}\)映射为该数据点的近似后验分布样本：\(\mathbf{z}^{(i,l)}=g_{\boldsymbol{\phi}}(\boldsymbol{\epsilon}^{(l)},\mathbf{x}^{(i)})\)，其中\(\mathbf{z}^{(i,l)}\sim q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(i)})\)。随后，样本\(z^{(i,l)}\)被输入函数\(\log p_\theta(\mathbf{x}^{(i)}|\mathbf{z}^{(i,l)})\)，该函数表示在生成模型中给定\(\mathbf{z}^{(i,l)}\)时数据点\(\mathbf{x}^{(i)}\)的概率密度（或质量）。用自编码器的术语来说，这一项就是负重构误差。

2.4 重参数化技巧

为解决这一问题，我们采用了一种从条件分布\(q_\phi(\mathbf{z}|\mathbf{x})\)中生成样本的替代方法。这一核心的重参数化技巧原理其实非常简单：假设 \(\mathbf{z}\) 是一个连续随机变量，且\(\mathbf{z} \sim q_\phi(\mathbf{z}|\mathbf{x})\)为某个条件分布。此时通常可以将随机变量 \(\mathbf{z}\) 重新表达为一个确定性变量：\(z = g_\phi(\epsilon,\mathbf{x})\)，其中 \(\epsilon\) 是一个具有独立边界\(p(\epsilon)\)的辅助变量，并且\(g_\phi(.)\)是由\(\phi\)参数化的某个向量值函数。

该重参数化方法之所以适用于我们的情况，是因为它能将关于\(q_\phi(\mathbf{z}|\mathbf{x})\)的期望改写成可对\(\phi\)求导的形式，从而使得蒙特卡洛估计对\(\phi\)可微。具体证明如下：给定确定性映射关系 \(\mathbf{z} = g_\phi(\epsilon,\mathbf{x})\)，根据概率密度变换关系可得： \(q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})\prod_idz_i=p(\boldsymbol{\epsilon})\prod_id\epsilon_i\) 因此(请注意，对于无穷小，我们使用 \(d\mathbf{z}=\prod_idz_i\))，期望可被重写为： \[ \int q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})f(\mathbf{z}) d\mathbf{z} = \int p(\boldsymbol{\epsilon})f(\mathbf{z}) d\boldsymbol{\epsilon} = \int p(\boldsymbol{\epsilon})f(g_{\boldsymbol{\phi}}(\boldsymbol{\epsilon},\mathbf{x})) d\boldsymbol{\epsilon} \]

由此可得，我们可以构建一个可微估计量： \[ \int q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})f(\mathbf{z}) d\mathbf{z} \simeq \frac{1}{L} \sum_{l=1}^L f(g_{\boldsymbol{\phi}}(\boldsymbol{\mathbf{x},\epsilon}^{(l)})) \] 其中，\(\boldsymbol{\epsilon}^{(l)} \sim p(\epsilon)\)。在2.3节中，我们应用这一技巧得到了变分下界的可微估计量。

以单变量高斯分布为例：设 \(\mathbf{z}\sim p(\mathbf{z}|\mathbf{x})=\mathcal{N}(\mu,\sigma^{2})\)。此时，一个有效的重参数化形式为 \(z=\mu+\sigma\epsilon\)，其中 \(\epsilon\) 是辅助噪声变量 \(\epsilon\sim\mathcal{N}(0,1)\)。因此，其期望可表示为： \[ \begin{array}{r}{\mathbb{E}_{\mathcal{N}(z;\mu,\sigma^{2})}\left[f(z)\right]=\mathbb{E}_{\mathcal{N}(\epsilon;0,1)}\left[f(\mu+\sigma\epsilon)\right]\simeq\frac{1}{L}\sum_{l=1}^{L}f(\mu+\sigma\epsilon^{(l)})}\end{array} \] 其中 \(\epsilon^{(l)}\sim\mathcal{N}(0,1)\)。

对于条件分布 \(q_{\phi}(\mathbf{z}|\mathbf{x})\)，我们可以选择这样的可微变换 \(g_{\phi}(\cdot)\) 和辅助变量 \(\epsilon\sim p(\epsilon)\)吗？主要有以下三种基本方法：

可逆累积分布函数法（CDF）：若 \(q_{\phi}(\mathbf{z}|\mathbf{x})\) 存在易处理的逆CDF，设 \(\epsilon\sim\mathcal{U}(\mathbf{0},\mathbf{I})\)，令 \(g_{\phi}(\epsilon,\mathbf{x})\) 为该分布的逆CDF。
适用分布：指数分布、柯西分布、逻辑斯谛分布、瑞利分布、帕累托分布、威布尔分布、倒数分布、冈珀茨分布、冈贝尔分布和埃尔朗分布。
位置-尺度分布族通用解法：
类比高斯分布案例，对于任何”位置-尺度”族分布，均可按以下方式构造重参数化：
设标准分布（位置参数 \(\mathit{\theta}=0\)，尺度参数 \(\lambda=1\)）为辅助变量 \(\epsilon\) 定义变换函数 \(g(\cdot) = \mu + \sigma \cdot \epsilon\) 其中 \(\mu\) 为位置参数，\(\sigma\) 为尺度参数
适用分布：拉普拉斯分布、椭圆分布、学生t分布、逻辑斯谛分布、均匀分布、三角分布和高斯分布。
组合变换法：通过辅助变量的复合变换实现，常见形式包括：
对数正态分布（正态分布变量的指数变换），伽马分布（多个指数分布变量的和），狄利克雷分布（伽马变量的加权和），贝塔分布、卡方分布、F分布等

当上述三种方法均不适用时，仍可通过计算复杂度与概率密度函数（PDF）相当的数值方法来获得逆累积分布函数（inverse CDF）的高精度近似解。

至此，总算到了我们关心的部分。

3. 例子：变分自编码器

在本节中，我们将给出一个应用示例：使用神经网络构建概率编码器 \(q_{\phi}(\mathbf{z}|\mathbf{x})\)（作为生成模型 \(p_{\pmb{\theta}}(\mathbf{x},\mathbf{z})\) 后验分布的近似），并通过AEVB算法联合优化参数 \(\phi\) 和 \(\pmb{\theta}\)。

设隐变量的先验分布为中心各向同性多元高斯分布 \(p_{\pmb{\theta}}(\mathbf{z}) = \mathcal{N}(\mathbf{z};\mathbf{0},{\mathbf{I}})\)。需要注意的是，这种情况下先验分布不含参数。我们令 \(p_{\pmb{\theta}}(\mathbf{x}|\mathbf{z})\) 为多元高斯分布（实值数据）或伯努利分布（二值数据），其分布参数通过一个MLP从 \(\mathbf{z}\) 计算得到。需要注意的是，真实后验 \(p_{\pmb{\theta}}(\mathbf{z}|\mathbf{x})\) 在这种情况下是难以处理的。

虽然 \(q_{\phi}(\mathbf{z}|\mathbf{x})\) 的形式选择具有很大自由度，但我们假设真实（但难以处理的）后验服从近似高斯形式且具有近似对角协方差矩阵。在这种情况下，我们可以设变分近似后验为具有对角协方差结构的多元高斯分布（请注意，这只是一个（简化的）选择，而不是我们方法的限制）： \[ \log q_{\phi}(\mathbf{z}|\mathbf{x}^{(i)})=\log\mathcal{N}(\mathbf{z};\pmb{\mu}^{(i)},\pmb{\sigma}^{2(i)}\mathbf{I})\tag{9} \] 如第2.4节所述，我们使用\[ \mathbf{z}^{(i,l)} = g_{\phi}(\mathbf{x}^{(i)},\epsilon^{(l)}) = \pmb{\mu}^{(i)} + \pmb{\sigma}^{(i)} \odot \pmb{\epsilon}^{(l)} \]从后验分布\(\mathbf{z}^{(i,l)}\sim q_{\phi}(\mathbf{z}|\mathbf{x}^{(i)})\)中采样，其中 \(\epsilon^{(l)} \sim \mathcal{N}(\mathbf{0},\mathbf{I})\)，符号 \(\odot\) 表示逐元素乘积。在该模型中：先验分布 \(p_{\pmb{\theta}}(\mathbf{z})\) 与近似后验 \(q_{\phi}(\mathbf{z}|\mathbf{x})\) 均为高斯分布,可直接计算KL散度（无需估计）并求导,基于公式(7)的估计量，对数据 \(\mathbf{x}^{(i)}\) 的最终估计式为： \[ \begin{array}{r l}&{\mathcal{L}(\pmb{\theta},\phi;\mathbf{x}^{(i)})\simeq\displaystyle\frac{1}{2}\sum_{j=1}^{J}\left(1+\log((\sigma_{j}^{(i)})^{2})-(\mu_{j}^{(i)})^{2}-(\sigma_{j}^{(i)})^{2}\right)+\frac{1}{L}\sum_{l=1}^{L}\log p_{\pmb{\theta}}(\mathbf{x}^{(i)}|\mathbf{z}^{(i,l)})}\\ &{\mathrm{where}\quad\mathbf{z}^{(i,l)}=\pmb{\mu}^{(i)}+\pmb{\sigma}^{(i)}\odot\pmb{\epsilon}^{(l)}\quad\mathrm{and}\quad\pmb{\epsilon}^{(l)}\sim\mathcal{N}(0,\mathbf{I})}\end{array}\tag{10} \]
如上所述，解码项\(\log p_{\pmb{\theta}}(\mathbf{x}^{(i)}|\mathbf{z}^{(i,l)})\)根据建模数据类型的不同，可表现为伯努利MLP或高斯MLP的形式。

余下部分就不详细展开了。

#AI #math #unsupervised learning #VAE

Auto-Encoding Variational Bayes

https://pd-ch.github.io/2025/05/04/arxiv-1312-6114v11.html

Author

Peidong Chen

Posted on

May 4, 2025

Licensed under

Clang+Clangd+Xmake使用import std Next

Auto-Encoding Variational Bayes

Introduction

2. Method

2.1 问题场景(Problem Scenario)

隐藏的挑战

难解性

数据集规模

相关问题与解决方案

2.2 变分界(The variational bound)

2.3 SGVB估计器（随机梯度变分贝叶斯估计器，Stochastic Gradient Variational Bayes 和 AEVB算法（自动编码变分贝叶斯，Auto-Encoding Variational Bayes

2.4 重参数化技巧

3. 例子：变分自编码器