马尔可夫随机场:无向图模型与空间相关性
引言:从有向到无向
在这一系列博客的开篇,我们讨论了贝叶斯网络,它使用有向无环图 (DAG) 来建模变量间的因果依赖。然而,在许多现实场景中,变量之间的作用是相互的、对称的,不存在明显的“因”与“果”。
例如,在数字图像中,一个像素及其相邻像素通常具有相似的颜色。我们不能说左边的像素“导致”了右边的像素,它们之间仅仅是空间相关。对于这类问题,无向图模型 (Undirected Graphical Models),即马尔可夫随机场 (Markov Random Fields, MRF),是更自然的建模工具。
结构表示:团与因子分解
MRF 使用无向图 $G=(V, E)$ 来表示变量间的独立性。
条件独立性:全局马尔可夫性
在无向图中,判断独立性比有向图简单,不再需要考虑 V-结构。我们使用图分离 (Graph Separation) 的概念:
全局马尔可夫性 (Global Markov Property):对于节点集合 $A, B, C$,如果 $C$ 在图中将 $A$ 和 $B$ 分离(即所有连接 $A$ 和 $B$ 的路径都经过 $C$),则 $A \perp B \mid C$。
这意味着,给定分离集 (Separating Set),被分离的两部分是条件独立的。
团与因子分解
为了定量描述分布 $P(X)$,我们利用图中的团 (Clique) 来定义局部相互作用。
- 团 (Clique):图中一个节点的子集,其中任意两个节点之间都有边连接(全连接子图)。
- 极大团 (Maximal Clique):不能再加入任何一个新节点使其仍构成团的团。
根据 Hammersley-Clifford 定理,如果一个分布 $P(X) > 0$ 满足无向图 $G$ 的马尔可夫性,则该分布可以分解为图上所有极大团 $C$ 的势函数 (Potential Function) 的乘积。
吉布斯分布 (Gibbs Distribution)
联合概率分布定义为:
\[P(X) = \frac{1}{Z} \prod_{C \in \mathcal{C}} \psi_C(x_C)\]其中:
- $\mathcal{C}$ 是图中所有极大团的集合。
- $x_C$ 是团 $C$ 中变量的状态配置。
- $\psi_C(x_C) \ge 0$ 是势函数 (Potential Function) / 因子 (Factor)。它是一个非负实函数,用于衡量团内变量状态的“相容性” (Compatibility)。
- $Z$ 是配分函数 (Partition Function),用于归一化: \(Z = \sum_{x} \prod_{C \in \mathcal{C}} \psi_C(x_C)\)
为了保证非负性,势函数通常表示为指数形式:$\psi_C(x_C) = \exp(-E_C(x_C))$。此时,$P(X)$ 称为玻尔兹曼分布 (Boltzmann Distribution),总能量 $E(x) = \sum_C E_C(x_C)$: \(P(X) = \frac{1}{Z} \exp(-E(x))\) 这建立了概率图模型与统计物理的深刻联系。能量越低的状态,概率越高。
典型模型:Ising 模型与图像去噪
伊辛模型 (Ising Model) 起源于统计力学,用于模拟铁磁物质的磁偶极矩。它是最简单的成对马尔可夫随机场 (Pairwise MRF)。
能量函数定义
假设每个节点 $x_i \in {-1, +1}$。能量函数通常包含两部分: \(E(x) = - \sum_{(i,j) \in E} J_{ij} x_i x_j - \sum_{i \in V} h_i x_i\)
- 成对项 (Pairwise Term) $-J_{ij} x_i x_j$:
- 若 $J_{ij} > 0$,则当 $x_i, x_j$ 符号相同时能量更低(概率更高)。这鼓励了邻居间的平滑性 (Smoothness) 或一致性。
- 一元项 (Unary Term) $-h_i x_i$:
- $h_i$ 相当于外部磁场,使得节点 $x_i$ 倾向于取特定的值。
应用:图像去噪
我们可以利用 Ising 模型去除二值图像的噪声。
- 观测节点 $y_i$:有噪声的像素值(固定)。
- 隐节点 $x_i$:真实的像素值(未知,待恢复)。
能量函数设计为: \(E(x, y) = - \beta \sum_{(i,j) \in E} x_i x_j - \eta \sum_{i \in V} x_i y_i\)
- 第一项利用空间连续性,使得相邻的真实像素 $x_i, x_j$ 尽可能一致。
- 第二项利用观测数据,使得恢复的像素 $x_i$ 尽可能接近观测值 $y_i$。
通过寻找最小化该能量的配置 $x^*$(即最大后验概率估计 MAP),即可实现去噪。
推断与采样 (Inference & Sampling)
在 MRF 中进行精确推断(如计算边缘概率 $P(x_i)$)极其困难。
配分函数 Z 的困境
计算归一化常数 $Z$ 需要对所有可能的变量配置求和: \(Z = \sum_{x_1} \dots \sum_{x_n} \exp(-E(x))\) 如果系统有 $N$ 个二值变量,求和项的数量高达 $2^N$。对于 $N=1000$ 的图像(仅 30x30 像素),计算量已超越宇宙原子总数。这就是所谓的 Partition Function Intractability。
蒙特卡洛马尔可夫链 (MCMC)
为了避开计算 $Z$,我们通常采用 MCMC 采样 方法。其核心思想是构造一个马尔可夫链,使其平稳分布收敛于目标分布 $P(X)$。
吉布斯采样 (Gibbs Sampling) 是最常用的方法。 它的优势在于:虽然计算联合概率 $P(X)$ 很难(因为有 $Z$),但计算完全条件概率 (Full Conditional Probability) 却很简单。
对于变量 $x_i$,其条件概率仅依赖于其邻居(马尔可夫毯): \(P(x_i \mid x_{-i}) = P(x_i \mid x_{\text{neighbors}}) = \frac{\exp(-E(x_i, x_{\text{neighbors}}))}{\sum_{x_i' \in Val(x_i)} \exp(-E(x_i', x_{\text{neighbors}}))}\) 在这个分式中,$Z$ 作为常数被分子分母消去了!
算法流程:
- 随机初始化状态 $x^{(0)}$。
- 对 $t = 1, \dots, T$:
- 依次对每个节点 $i = 1, \dots, N$:
- 根据当前邻居状态,从条件分布 $P(x_i \mid x_{\text{neighbors}})$ 中采样新的 $x_i^{(t)}$。
- 依次对每个节点 $i = 1, \dots, N$:
- 当 $t$ 足够大时,样本 ${x^{(t)}}$ 近似服从 $P(X)$。
总结
马尔可夫随机场通过极大团势函数的乘积定义了联合概率分布,完美契合了具有空间对称性的问题。Hammersley-Clifford 定理保证了这种因子分解的合法性。虽然配分函数 $Z$ 的存在使得精确推断变得棘手,但 MCMC 等近似方法为我们提供了强大的计算工具。
从贝叶斯网络的“因果”到 MRF 的“关联”,我们已经覆盖了概率图模型的两大基石。在下一篇(也是本系列的终篇),我们将探讨一种特殊的生成式有向图模型——LDA 主题模型,看它是如何利用共轭先验在文本数据挖掘中大放异彩的。