Questionnaire Reliability, Validity, and Structural Equation Modeling (SEM)

关于信度和效度

在问卷研究中，信度和效度是衡量问卷质量的两个标准。如果一份问卷的信度和效度不达标，基于这份问卷收集的数据所做的分析和结论都不可靠。

信度分析 关注 “我的问卷测量结果是否稳定、一致、可靠？” 它关心的是测量工具本身的问题，而不是它是否测量了正确的东西。
效度分析 关注“我的问卷是否测量了我想要测量的那个东西？” 它关心的是测量的内容和目的是否正确。

假设我们要研究“员工工作满意度”，这是一个典型的抽象概念，需要通过多个具体问题来测量。我们将其分为两个维度：薪酬满意度和工作环境满意度，并形成下面这份大致的问卷内容。

第一部分：薪酬满意度

$X_1$ . 我认为我的薪酬与我的工作付出是匹配的。 ( 1 - 2 - 3 - 4 - 5 )
$X_2$ . 与公司其他同事相比，我对自己的薪酬水平感到满意。 ( 1 - 2 - 3 - 4 - 5 )
$X_3$ . 公司的福利待遇（如假期、补贴等）很有吸引力。 ( 1 - 2 - 3 - 4 - 5 )

第二部分：工作环境满意度

$Y_1$ . 我与我的同事关系融洽，合作愉快。 ( 1 - 2 - 3 - 4 - 5 )
$Y_2$ . 我的工作氛围是积极向上、充满正能量的。 ( 1 - 2 - 3 - 4 - 5 )
$Y_3$ . **我经常感到来自工作的巨大压力。** ( 1 - 2 - 3 - 4 - 5 ) *(注意：这是一个反向计分题)*

信度分析

信度分析检验问卷测量结果的稳定性和一致性。这里主要关注内部一致性信度，即测量同一概念的多个题目是否“口径一致”。常用方法是克隆巴赫 $\alpha$ 系数 (Cronbach’s alpha)。

由于题目 $Y_3$ 是反向计分题，而其他题目是正面描述。为了保持方向一致，必须对 $Y_3$ 的得分进行转换。即在 5 分制的量表中，使用 6 - 原始得分，仍保持 1-5 的 5 分制体系，但转换为正向的计量。

信度分析是针对“维度”的，而不是整个问卷。我们需要分别对“薪酬满意度”和“工作环境满意度”进行分析。

\alpha

系数衡量的是一组题目**内部一致性**的程度。如果这些题目确实在测量同一个概念，得分之间应该存在很强的正向相关性。

\alpha

系数不直接计算所有题目两两之间的相关性，而是通过**方差**这个更宏观的指标来间接衡量这种相关性。计算公式如下：

\alpha = \frac{k}{k - 1} \left( 1 - \frac{\sum_{i=1}^{k} \sigma_{Y_i}^2}{\sigma_X^2} \right)

其中 $k$ 是题目的数量， $\sigma_{Y_i}^2$ 计算所有题目的总方差， $\sigma_{X}^2$ 计算整个维度的总分方差。如果题目间高度相关，总分方差会被“协方差”撑得很大，导致 (各题目方差之和 / 总分方差) 这个比值变得很小， $\alpha$ 值就高。反之如果题目间毫不相关， $\alpha$ 值就低。系数 $k / (k-1)$ 是一个修正项，保证题目间完全不相关时， $\alpha$ 系数的理论值为 0。

分别计算各个维度的克隆巴赫 $\alpha$ 系数，可以度量问卷的内部一致性信度，并辅助判断回答是否稳定。

效度分析

效度分析检验问卷是否准确地测量了我们想要测量的概念。这里主要关注结构效度，即问卷的理论结构（两个维度）是否与实际收集的数据结构相符。常用方法是验证性因子分析 (CFA)，用于验证数据和理论假设是否相符。

CFA 是检验结构效度的常用工具。它用来验证我们预设的模型（即 $X_1, X_2, X_3$ 属于“薪酬”因子， $Y_1, Y_2, Y_3$ 属于“环境”因子）与数据的拟合程度。

第一步是提出理论假设，给出一个对本问题认识的假设模型，如：

存在两个潜在因子（潜变量）：“薪酬满意度”和“工作环境满意度”。
题目 $X_1, X_2, X_3$ 是“薪酬满意度”这个因子的观测指标。
题目 $Y_1, Y_2, Y_3$ (reversed) 是“工作环境满意度”这个因子的观测指标。
这两个因子之间可能存在相关性。

CFA 的整个工作流程，可以概括为对两个协方差矩阵的比较：

样本协方差矩阵 ( $S$ - Sample Covariance Matrix)：收集到的实际数据所计算出的协方差矩阵，反映了问卷中所有题目两两之间的真实相关关系。
模型隐含协方差矩阵 ( $\Sigma(\theta)$ - Model-implied Covariance Matrix)：根据你预设的理论模型，通过数学公式推算出的一个协方差矩阵。它代表了“如果理论模型成立，数据应该呈现出的样子”。

CFA 通过调整模型中所有参数让两个矩阵之间逼近，需要调整的参数包括：

因子载荷：潜变量（如“薪酬满意度”）对观测变量（如 $X_1$ ）的影响程度。
因子间协方差：不同潜变量（如“薪酬”和“环境”）之间的相关程度。
误差方差：每个题目无法被潜变量解释的部分（即测量误差）。

我们需要在 CFA 软件中画出理论结构图，后面依靠软件来实现参数的优化：

用椭圆表示潜变量。
用矩形表示观测变量。
用单向箭头从潜变量指向其对应的观测变量，代表因子载荷。
用双向箭头连接不同的潜变量，代表因子间协方差。
每个观测变量还会有一个指向自己的单向箭头，代表误差项。

CFA 通过三个层面的证据来检验结构效度：

卡方检验：检验矩阵之间是否存在显著差别，但 $p > 0.05$ 的时候才可以认为拟合好。大样本时几乎总是显著，所以仅供参考。
RMSEA：衡量模型在每个自由度上的平均误差，越小越好，0.08 为有效界。
SRMR：相关系数差异的平均值，越小越好，0.08 为有效界。
CFI / TLI：将你的模型与一个“所有变量都无关”的基准模型进行比较，看改进了多少。越接近 1 越好，> 0.90 (可接受)。

观察标准化因子载荷回答：“我的题目是否在测量我想要的那个潜变量？” 因子载荷值应足够高且 $p$ 值显著。通常要求 > 0.5，理想 > 0.7。

研究区分效度回答：“我测量的不同潜变量之间，是否确实是不同的东西？” 一般查看潜变量之间的相关系数。如果这个相关系数过高（如 > 0.85），则说明这两个因子可能测量的是同一个概念，区分度不够。

验证性因子分析 (CFA) 与结构方程模型 (SEM)

CFA 是 SEM 的基础和特例，SEM 是 CFA 的扩展和延伸。前者只包括测量模型。目的在于验证测量工具的有效性。它回答的问题是：“我的问卷题目是否准确地测量了我想要测量的那些抽象概念（潜变量）？”

SEM (结构方程模型) 还包含了结构模型，用于分析潜变量(抽象概念)之间的因果关系。回答的问题是：“我的理论假设（比如，薪酬满意度会影响工作环境满意度，进而影响离职倾向）是否得到了数据的支持？”

它只需要在 CFA 中增加潜变量之间的因果关系路径（带箭头的直线）。我们在使用的时候主要回答下面的问题：

路径系数：一个潜变量对另一个潜变量的直接影响大小和方向（类似于回归系数），一般在 -1 到 +1 之间，并且提供 $p\text{-value}$ 。
间接效应/中介效应：变量 A 通过变量 B 影响变量 C 的程度。
模型拟合度：我预设的包含因果关系的整个理论模型，与实际数据是否吻合？

SEM 是一种回归方程方法，和传统的多元线性回归相比有一些优势。虽然其中的技术细节已经被封装得较为完善，但它仍可以用于许多学术研究。它包括下面的优势：

处理测量误差：这是 SEM 的主要优势。SEM 承认每个观测变量都有误差，并在模型中将其分离出去，从而更纯粹地估计潜变量之间的关系。
同时处理多组因果关系：回归分析一次只能检验一个因变量。SEM 可以同时检验一个模型中包含多个因变量和自变量的复杂网络。
估计中介与调节效应：SEM 是检验中介效应（A 通过 B 影响 C）和调节效应（B 的关系强弱受 C 影响）的最佳工具。它能清晰地分解出直接效应、间接效应和总效应。
提供整体模型拟合度：回归分析只能告诉你单个路径是否显著，但无法评价整个“理论模型”的好坏。SEM 提供了一系列拟合指数（如 CFI, RMSEA），让你能判断你的整个理论蓝图与现实的吻合程度。
比较竞争理论：你可以提出两个不同的理论模型，然后用 SEM 数据来判断哪个模型能更好地解释数据。