马尔可夫随机场：无向图模型与空间相关性

引言：从有向到无向

在这一系列博客的开篇，我们讨论了贝叶斯网络，它使用有向无环图 (DAG) 来建模变量间的因果依赖。然而，在许多现实场景中，变量之间的作用是相互的、对称的，不存在明显的“因”与“果”。

例如，在数字图像中，一个像素及其相邻像素通常具有相似的颜色。我们不能说左边的像素“导致”了右边的像素，它们之间仅仅是空间相关。对于这类问题，无向图模型 (Undirected Graphical Models)，即马尔可夫随机场 (Markov Random Fields, MRF)，是更自然的建模工具。

结构表示：团与因子分解

MRF 使用无向图 $G=(V, E)$ 来表示变量间的独立性。

条件独立性：全局马尔可夫性

在无向图中，判断独立性比有向图简单，不再需要考虑 V-结构。我们使用图分离 (Graph Separation) 的概念：

全局马尔可夫性 (Global Markov Property)：对于节点集合 $A, B, C$，如果 $C$ 在图中将 $A$ 和 $B$ 分离（即所有连接 $A$ 和 $B$ 的路径都经过 $C$），则 $A \perp B \mid C$。

这意味着，给定分离集 (Separating Set)，被分离的两部分是条件独立的。

团与因子分解

为了定量描述分布 $P(X)$，我们利用图中的团 (Clique) 来定义局部相互作用。

团 (Clique)：图中一个节点的子集，其中任意两个节点之间都有边连接（全连接子图）。
极大团 (Maximal Clique)：不能再加入任何一个新节点使其仍构成团的团。

根据 Hammersley-Clifford 定理，如果一个分布 $P(X) > 0$ 满足无向图 $G$ 的马尔可夫性，则该分布可以分解为图上所有极大团 $C$ 的势函数 (Potential Function) 的乘积。

吉布斯分布 (Gibbs Distribution)

联合概率分布定义为：

\[P(X) = \frac{1}{Z} \prod_{C \in \mathcal{C}} \psi_C(x_C)\]

其中：

$\mathcal{C}$ 是图中所有极大团的集合。
$x_C$ 是团 $C$ 中变量的状态配置。
$\psi_C(x_C) \ge 0$ 是势函数 (Potential Function) / 因子 (Factor)。它是一个非负实函数，用于衡量团内变量状态的“相容性” (Compatibility)。
$Z$ 是配分函数 (Partition Function)，用于归一化： $Z = \sum_{x} \prod_{C \in \mathcal{C}} \psi_C(x_C)$

为了保证非负性，势函数通常表示为指数形式：$\psi_C(x_C) = \exp(-E_C(x_C))$。此时，$P(X)$ 称为玻尔兹曼分布 (Boltzmann Distribution)，总能量 $E(x) = \sum_C E_C(x_C)$： $P(X) = \frac{1}{Z} \exp(-E(x))$ 这建立了概率图模型与统计物理的深刻联系。能量越低的状态，概率越高。

典型模型：Ising 模型与图像去噪

伊辛模型 (Ising Model) 起源于统计力学，用于模拟铁磁物质的磁偶极矩。它是最简单的成对马尔可夫随机场 (Pairwise MRF)。

能量函数定义

假设每个节点 $x_i \in {-1, +1}$。能量函数通常包含两部分： $E(x) = - \sum_{(i,j) \in E} J_{ij} x_i x_j - \sum_{i \in V} h_i x_i$

成对项 (Pairwise Term) $-J_{ij} x_i x_j$：
- 若 $J_{ij} > 0$，则当 $x_i, x_j$ 符号相同时能量更低（概率更高）。这鼓励了邻居间的平滑性 (Smoothness) 或一致性。
一元项 (Unary Term) $-h_i x_i$：
- $h_i$ 相当于外部磁场，使得节点 $x_i$ 倾向于取特定的值。

应用：图像去噪

我们可以利用 Ising 模型去除二值图像的噪声。

观测节点 $y_i$：有噪声的像素值（固定）。
隐节点 $x_i$：真实的像素值（未知，待恢复）。

能量函数设计为： $E(x, y) = - \beta \sum_{(i,j) \in E} x_i x_j - \eta \sum_{i \in V} x_i y_i$

第一项利用空间连续性，使得相邻的真实像素 $x_i, x_j$ 尽可能一致。
第二项利用观测数据，使得恢复的像素 $x_i$ 尽可能接近观测值 $y_i$。

通过寻找最小化该能量的配置 $x^*$（即最大后验概率估计 MAP），即可实现去噪。

推断与采样 (Inference & Sampling)

在 MRF 中进行精确推断（如计算边缘概率 $P(x_i)$）极其困难。

配分函数 Z 的困境

计算归一化常数 $Z$ 需要对所有可能的变量配置求和： $Z = \sum_{x_1} \dots \sum_{x_n} \exp(-E(x))$ 如果系统有 $N$ 个二值变量，求和项的数量高达 $2^N$。对于 $N=1000$ 的图像（仅 30x30 像素），计算量已超越宇宙原子总数。这就是所谓的 Partition Function Intractability。

蒙特卡洛马尔可夫链 (MCMC)

为了避开计算 $Z$，我们通常采用 MCMC 采样 方法。其核心思想是构造一个马尔可夫链，使其平稳分布收敛于目标分布 $P(X)$。

吉布斯采样 (Gibbs Sampling) 是最常用的方法。它的优势在于：虽然计算联合概率 $P(X)$ 很难（因为有 $Z$），但计算完全条件概率 (Full Conditional Probability) 却很简单。

对于变量 $x_i$，其条件概率仅依赖于其邻居（马尔可夫毯）： $P(x_i \mid x_{-i}) = P(x_i \mid x_{\text{neighbors}}) = \frac{\exp(-E(x_i, x_{\text{neighbors}}))}{\sum_{x_i' \in Val(x_i)} \exp(-E(x_i', x_{\text{neighbors}}))}$ 在这个分式中，$Z$ 作为常数被分子分母消去了！

算法流程：

随机初始化状态 $x^{(0)}$。
对 $t = 1, \dots, T$：
- 依次对每个节点 $i = 1, \dots, N$：
  - 根据当前邻居状态，从条件分布 $P(x_i \mid x_{\text{neighbors}})$ 中采样新的 $x_i^{(t)}$。
当 $t$ 足够大时，样本 ${x^{(t)}}$ 近似服从 $P(X)$。

总结

马尔可夫随机场通过极大团势函数的乘积定义了联合概率分布，完美契合了具有空间对称性的问题。Hammersley-Clifford 定理保证了这种因子分解的合法性。虽然配分函数 $Z$ 的存在使得精确推断变得棘手，但 MCMC 等近似方法为我们提供了强大的计算工具。

从贝叶斯网络的“因果”到 MRF 的“关联”，我们已经覆盖了概率图模型的两大基石。在下一篇（也是本系列的终篇），我们将探讨一种特殊的生成式有向图模型——LDA 主题模型，看它是如何利用共轭先验在文本数据挖掘中大放异彩的。