空间数据分析
引论
空间数据分析的引入
有空间坐标或者相对位置的数据称为空间数据。经典统计学方法大多数情况下要求样本相互独立,大样本且多次重复。而空间数据一般不满足独立性要求,同时存在空间异质性,不可重复性。
将经典统计学方法迁移到空间数据的问题是需要单独研究的问题,经过多年的研究也形成了空间数据独有的理论值得我们单独的进行研究。整个空间数据分析体系的核心基于空间自相关性
空间数据分析的起源与发展
1854年 John Show 对伦敦霍乱数据进行空间分析发现了传染源,成为了空间数据分析和流行病学两个学科领域的共同起源。
空间连续数据分析起源于采矿钻孔数据的空间插值,空间多边形数据分析起源于社会经济统计单元数据的空间自相关与回归和计量地理学,空间点数据分析起源于生态学样方分析。
空间数据分析领域正在被地学 公共卫生 社会科学诸多机构/领域广泛使用,机器学习算法也在空间数据分析被广泛使用。随着时空数据的大量产生,我们也走入了时间空间结合分析的时代,也就是时空数据分析。
空间数据类型
空间数据分为三类,针对三种不同的空间数据类型,我们有着不同的空间数据分析方法。
空间连续数据
空间连续数据 (spatial continuous data )也被称为地统计数据 (geostatistical data )
代表性的例子有地表温度分析 土壤钻孔分布数据,他们可以经过空间插值生成连续数据
多边形数据
多边形数据( polygons) 也称为面数据 (areal data) 或者区域数据 (regional data) 他是一种空间上的图形信息,无论是规则的(遥感图像像元)还是不规则的行政规划地图,他们不是连续的,有着特定的区块划分,每个划分对应特定的属性值
点数据
点数据(point data) 他的空间位置是重要的,不涉及属性值的信息,比如居民点的空间分布,疫情爆发点的空间分布
空间数据一般形式
我们可以用下面的形式来记录空间数据 \(\{z(s):s\in D\}\) 其中$D$是我们的研究区 他是完整坐标空间的一个子集 维数不受限制但是一般是二维的平面信息或者三维的空间信息。 在每一个点$s$上的真实值是一个随机变量,所有的$Z(s)$构成了我们的总体(population)。由于空间的无限可分性,我们对空间总体进行抽样得到样本(sample)
根据这样的一般形式,我们可以将原本的空间数据类型进行统一
- 对于空间连续数据,$D$是$R^d$的一个固定连续子集
- 对于多边形数据,$D$是$R^d$的一个可数固定子集,其没有连续的特性了
- 对于点数据,$D$是$R^d$的一个随机子集,其$Z(s)$ 是退化的,没有属性值
空间数据分析方法
关于空间数据
一般情况下,我们用点间间距和半变异函数来衡量空间点数据和空间连续数据。而对于多边形数据则一般采用连接矩阵来实现。两种表达方式形式不同而思想接近。
实际上,空间数据类型可以相互转化,借此反应不同的问题。Fothringham 将连续数据分析的核心 Kriging 模型和多边形数据的核心方法 SAR等整合到了一个体系中。或者我们可以将原本的多边形数据的发病数量弱化为是否发病转化为点数据,构造区域等值线转换为连续数据,借此换用各种方法分析
空间统计信息流
空间数据分析有着和经典统计分析接近的处理问题思路,我们都要从总体抽样,然后对总体进行推断。
但是空间抽样是不存在所谓的I.I.D的,当总体存在较大的空间分异性且抽样数量不足的时候,样本的位置会极大的影响统计推断结果的,也就是抽样方法和统计推断紧密联系
模型选择
我们后面将会逐个介绍模型,这里先作为一个总览
- 地理空间分布对象总体可能存在空间自相关性(用Moran’s $I$或者 半变异函数检验)
- 可能存在空间分异性 (用地理探测器$q$检验)
- 可变面元问题(不同分层或等级$q$不同,按照专业知识或者最大$q$进行分层)
如果模型假设与研究对象的总体性质一样,就是恰当的模型,给出对应关系有
- 独立同分布,使用经典统计学方法进行研究
- 空间相关性强 但是分异性弱 没有明确的解释变量或者解释变量不可获取 采用Kriging方法
- 空间分异性强,相关性弱,没有明确的解释变量或者解释变量不可获取,Sandwich模型是合适的
- 空间分异性和相关都很强,没有明确的解释变量或者解释变量不可获取,又细分为三种情况
- 各个层(strata)均有样本,MSN或者P-MSN模型
- 某些层没有样本,BSHADE,P-BSHADE 模型
- 只有一个样本单元,有辅助变量 SPA模型
- 如果解释变量明确且可以获取,而空间分异性弱,空间相关性弱,那么贝叶斯层次模型(BHM)或者多元回归等各种方法都是可行的
我们后面就围绕这个体系来展开全文的叙述
精度评估
如果有真实值,就采用真实值进行检验,可以考虑留出部分样本检验;样本量不足,可以采用经典的交叉验证方法或者留一法。
如果缺少真实值,选取和目标变量性质接近的变量进行检验;进行历史或者未来的插值而无真值的时候,可以用现代真值进行方法验证。
整体而言在精度评估方法方面,空间数据分析的改进并不明显。
空间探索性数据分析SEDA
GIS简介
现实世界中大量的问题都和空间数据相关,处理这一类问题需要访问多维的空间坐标属性。传统的统计学软件在这一方面并不擅长,当然作为开源软件的代表,R与Python都提出了用于空间数据分析问题packages,只是在处理的效率上明显没有专用的软件更高
地理信息系统(geographical information systems GIS) 是一种空间数据存储,展示,管理,查询,分析,决策的支持系统。其最大的特点是处理的数据都经过地理编码,并且将这种编码作为重要的信息检索与处理部分。GIS至今已经有了诸多专门的软件用于实现,不需要局限于传统的统计分析软件进行。而大多数GIS也集成了常用的空间数据分析的功能。
具体如何使用GIS我们这里不进行介绍,需要专门进行研究。而GIS是进行空间探索性数据分析 SEDA 的基本上最好解决方法,当然R也提供了自己的解决方案供我们使用
最为常用的专用GIS是 ArcGIS
GIS原理
一个GIS的建立涉及地理表达,空间参考,空间数据模型三个部分,我们这里进行简单的介绍。
地理要素表达
常见的地理要素空间表达有矢量 栅格 不规则网 Voronoi等方式,我们在接触真实的GIS解决方案的时候就会理解,这里纯粹理论的叙述并不清晰
空间参考系
比较常见的坐标系统有 地心坐标系统,球坐标系统,以及最为常见的笛卡尔坐标系统。其中笛卡尔坐标系统是最为常用的。
在有的空间数据分析问题中,我们需要建立局部的的三维坐标系,此时一般直接采用笛卡尔坐标系建立三维的坐标系就可以。不需要进行过多GIS方面的讨论。
在现实世界的GIS中,我们最常见的建立地表的坐标系统,而且往往涉及全球。我们知道,地球是椭球体,而笛卡尔坐标系统希望建立一种平面的坐标系。因此我们一般需要采用横轴墨卡托投影系统(universal transverse mercator UTM)进行平面化。 当然局部地图一般使用本地平面投影系统。有了投影系统,我们就可以轻易的在地图上进行量算,计算长度,面积,长度等属性值
在现实世界的研究中,我们一般把地球视为椭球体,为了统一标准,我们引入基准面作为一种测量基准,常用的基准面有 WGS84 ED50 NAD83 分别用于全球定位 欧洲定位 北美洲定位 以及国内使用的2000坐标系统。
常用的投影方式(与投影系统是两个概念)有圆柱投影,圆锥投影,方位投影三种,他们在不同的角度与方向上都有着不可避免的变形,在不同领域中各有使用,如下图 ![[空间数据分析.png]]
空间参考是前面的叙述知识的综合,我们需要选取参考面 投影方式 坐标系统,然后得到一张平面的地图。
空间数据模型
对于计算机的存储与使用,我们需要建立空间数据模型。
在空间数据模型中,我们需要存储空间位置数据 时间数据 属性特征数据(编码数据) 和普通的特征数据。他们一般使用向量来存储。
我们在介绍R中的空间数据分析的时候再来研究空间数据模型,在大多数具备可视化界面的GIS系统中,空间数据模型不需要我们考虑。
空间总体特性
相对于一般数据,空间数据有着独特的性质
- 空间自相关性 spatial autocorrelation
- 空间异质性 spatial heterogeneity
- 可变面元问题 modified areal unit problem
相对接近的空间上的属性值往往比相距更远的更加相似,这被称为 Tobler地理学第一定律 也就是空间自相关的体现 万物世界空间分布不均 这就是空间异质性 随着空间划分的不同,相关系数和回归系数会发生改变 这就是可变面元问题
这三个特性区别于经典统计学中要求的I.I.D 抽样,也是这三个特性带来了空间统计学的产生。我们在下面逐个介绍这些空间总体特性
空间自相关性
定义与影响
如果附近和周边地区与中心更为相似,这被称为空间正相关。如果不相似的值趋于互相毗邻,则被称为空间负相关。
非独立的空间数据会影响基于独立同分布假设的统计学方法,在一般情况下,我们可以考虑
- 样本稀疏,减少样点之间的相关性
- 将空间连接矩阵特征值用于回归模型
- 将空间自相关作为变量加入回归模型,也就是空间回归方法
空间自相关并不是只有坏处,他的存在让[[空间数据分析#空间插值]]成为了可能,于此同时,空间回归模型可以直接利用这种空间上的依赖性,改进预测效果
空间自相关性的解释比较复杂,需要结合指标值本身和非常多相关领域知识来进行解释,一般需要求助于领域专家进行研究
度量
为了研究空间自相关性,我们需要给出空间连接矩阵 $W$ \(W=\{w_{ij}\}\) 当多边形 $i,j$ 邻接的时候 取1 否则取0
最常见的空间自相关性度量指标是Moran‘s I指数 他把Pearson相关系数中的$y$用邻近的$x$ 来代替,然后进行简单的数学修正得到下面的式子
\(Moran'sI=\frac{N}{\sum_{ij}w_{ij}}\frac{\sum_{i}\sum_{j}w_{ij}\left(x_{i}-\overline{x}\right)\left(x_{j}-\overline{x}\right)}{\sum_{i}\left(x_{i}-\overline{x}\right)^{2}}\) 我们计算得到的 $I$ 大体位于 $[-1,1]$ 之间,正数表示正相关 负数表示负相关 0表示没有相关性。 $x_i,\bar{x}$ 分别是 某点和整体的观测值
Moran‘s I指数有自己的假设检验方法 这里就不叙述了
空间自相关性还可以用 变异函数 (semi - variogram) 来度量 \(\gamma\left(h\right)=\frac{1}{2n\left(h\right)}\sum_{s=1}^{n\left(h\right)}\left[x\left(s\right)-x\left(s+h\right)\right]^{2}\) 其中$n(h)$ 表示了距离为 $h$ 的点对数 $x$表示某点观测值,变异函数一般用变异曲线了衡量,表示一定距离下的变异函数值的图像
我们一般会设定阈值$a$ 当变异函数值小于 $a$ 的时候认为其有相关性,反之认为没有,变异函数没有假设检验方法
空间分层异质性
定义与影响
空间异质性指的是属性值在空间上出现了超出随机波动的差异,分层异质性则指的是层内的方差小于层间的方差
空间分层异质性是空间异质性体现出的一种规律性,而异质性的存在则是整个地理学的基础,几乎每一个地点都存在相对于其他位置的独特性。
空间分层异质性的存在导致了空间全局的属性无法准确的刻画局部特征 对此我们常用的方法有
- 分类或者分区,研究区域的特点
- 局部模型构建
空间分层异质性是异质中的规律性,分层进行建模可能可以继续改进建立的模型的效果;于此同时,空间的插值也离不开分层异质性的研究。分层的存在也可以辅助我们进行抽样调查
度量
空间分层异质性体现为分类或者分区,在统计学中成为分层 (stratification) 其原理是进行划分让层内方差最小,层间方差最大。
据此,我们定义分层异质性的$q$ 统计量有 \(q=1-\frac{1}{N\sigma^{2}}\sum_{h=1}^{L}N_{h}\sigma_{h}^{2}\) 取值范围为 $[0,1]$ 当接近0的时候没有分异 接近1的时候分异性最强
空间总体特性小结
当总体是独立并且平稳的,我们应该使用经典统计学,此时 i.i.d 抽样是所有数据都满足的
当我们检验到空间自相关性或者空间分异性的时候,就需要采用空间统计学/空间数据分析来进行
空间二阶平稳假设指的是,每个点的属性值表示为一个随机变量,各个点的数学期望相等并且两个点随机变量之间的相关性只和他们之间的距离相关,而和两者的绝对位置无关,基于二阶平稳假设,我们有 Kriging 空间插值为代表的基于空间自相关性的方法
空间分异性不满足二阶平稳假设,形成了以地理探测器和Sandwich空间插值为代表的基于空间分异性的方法。
综上
- 如果空间相关和空间分异均不显著,采用经典统计学
- 如果只有空间相关显著,采用Kwiding插值和空间回归
- 如果只有空间分异显著,采用Sandwich插值和分层回归
- 如果均显著,采用MSN SPA等模型
空间抽样
空间抽样是获取用于统计推断的样本的重要方法,经典统计学中研究过各种抽样方法,但是在面临空间数据的自相关性与分异性的时候,他们不再实用。因此我们这里需要单独研究空间统计学中的抽样
面临大数据时代,空间抽样乃至于整个抽样调查体系都不是非常重要,我们有能力进行非常完整的抽样,因此这里从简介绍
至于抽样统计量的形式,我们统一选取估计总体均值的统计量
空间简单抽样
空间简单抽样指的是在地理空间上等概率的抽取若干个单元,其基本的统计量形式为 \(\overline{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}\)
具体抽取的单元是点 样方 行政单元都是可以接受的
空间系统抽样
系统抽样的基本思想是根据固定的间隔进行抽取单元,而空间系统抽样的核心就是把我们所拥有的点均匀的分散给我们的二维空间
基本的统计量形式仍然为 \(\overline{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}\)
空间系统抽样比空间简单抽样更加的均匀,对于需要进行利用空间自相关性进行插值的时候,空间系统抽样比空间简单抽样更加的合适
空间分层抽样
在面临空间分异性的时候,空间分层抽样和我们后面介绍的Sandwich抽样比系统抽样与简单抽样更加合适
划分层的原则是层内方差最小,层间方差最大,属性值接近的点被划分为同一层 (stratum)
在完成层的划分之后,我们一般将样本量按照某种分配原则分配给各个层。常见的原则有
- 各个层平均分配
- 根据层中单元数比例进行分配
- 根据某层的标准离散方差和单元数的乘积比例进行分配(对离散强侧重抽样)
统计量的公式不发生变化,我们可以计算各个层的均值
空间Sandwich抽样
目前的抽样方法都针对于报告单元进行抽样,原则上抽样的数目应该是报告单元的数目的至少两倍才可以进行,每个报告单元都要至少被进行一次抽样。这样对样本量的压缩和抽样成本控制是非常不利的,于是我们提出了空间Sandwich抽样
空间Sandwich抽样是一种改进的分层抽样方法,对于空间分异性有很好的效果。
首先我们仍需要进行分层,形成多个知识层。然后根据知识层进行样本分配于抽样,计算出统计量的均值与方差。最后将知识层与报告图层相切,得到我们的报告图层的均值与方差
也就是我们先在一个较大的范围上抽样进行统计推断,然后将其结果应用到更小的单元上
空间插值
空间插值是空间统计学中非常重要的一个部分,我们可以从已知来进行大量的未知的推算。
在经典统计学中,我们也偶有插值的使用,但是实际应用并不广泛,而空间插值的应用非常广泛,用少量的样本值来推算更大范围上的空间属性值听起来就是非常实用的技巧
空间插值的方法和空间总体特性联系紧密,分异性与自相关性的强弱会影响我们对插值方法的选择
核密度估计
核密度估计根据单变量的样本点群,计算其空间平滑估计值。
用$s$代表空间中的一个任意点,用$s_i$ 表示已知的点,那么可以计算$\lambda(s)$ 根据 \(\hat{\lambda}_{\tau}\left(s\right)=\sum_{i=1}^{n}\frac{1}{\tau^{2}}k\left[\frac{\left(s-s_{i}\right)}{\tau}\right]\) 其中的核函数$k$ 是一个提前确定的倒U型函数,实现给定的$\tau$ 作为平滑量的确定值,实际上是规定平滑的半径。离$s$越远的点对其的影响就越小
过大的$\tau$ 会抹平局部值的大影响
核密度估计利用空间自相关性进行
趋势面插值
趋势面插值的思想非常简单,利用某个已知的函数对整体的分布进行拟合,函数的基本形式提前确定,我们只需要估计里面的一些未知参数就好了
趋势面插值严重依赖于趋势面的选取,而且低次的趋势面往往拟合效果堪忧,高次的趋势面则计算过于复杂
利用空间的自相关性进行
反距离加权
待插值的点的特征值取值是其周围的点的特征值的加权和,权重与两点间距离函数成反比
距离反比的程度往往依赖手工选取,容易导致待插值点明显高于周围的样本点的情况
利用自相关性进行
Kriging方法
Kriging方法用周围影响范围内的几个已知样本点的变量值的线性组合来进行估计,形式如下 \(z_{0}=\sum_{1}^{n}\lambda_{1}z_{1}\) Kriging方法依赖于二阶平稳假设
- 各个点的一阶矩未知但是一致
- 两点之间的协方差之和距离相关,和绝对位置无关
Kriging插值方法就是希望在如上的假设下求出最好的$\lambda_i$ 让预测值无偏,其计算$\lambda_i$ 的代数方程组有 \(\begin{cases}\sum_{j}^{n}\lambda_{j}C\left(z_{i},z_{j}\right)+\mu=C\left(z_{i},z_{0}\right)\\\sum_{j}^{n}\lambda_{j}=1\end{cases}\) 或者 \(\begin{cases}\sum^{n}_{j}\lambda_{j}\gamma\left(z_{i},z_{j}\right)+\mu=\gamma\left(z_{i},z_{0}\right)\\\sum^{n}\lambda_{j}=1\end{cases}.\) 函数$\gamma$ 指的是变异函数 他和协方差都是用来度量自相关程度的
CoKriging方法
当估计值$z$和其他变量$x$ 存在相关性的时候,这些协变量也包含主变量的信息,我们可以利用这些信息来辅助的我们对$z$的估计,也就是CoKriging方法 \(\hat{z}_{0}=\sum_{i=1}^{n}\lambda_{i}z_{i}+\sum_{j=1}^{m}b_{j}x_{j}\) 具体的系数求解方法这里不再赘述
Sandwich插值
当空间相关性较弱的时候,基于空间自相关性的插值方法就无法进行了,这里我们介绍Sandwich插值,也是本章介绍的唯一一种在空间相关性弱,空间分异性强的时候使用的插值方法。
如果相关性的分异性都很强,有专门的处理方法,但是不在本节的考察范围内
Sandwich插值的计算步骤如下
- 对目标总体按照组内方差最小,组间方差最大的方式进行分层,得到知识层
- 计算知识层的均值与方差
- 将知识层和更细粒度的报告层叠加,得到各个报告单元的值
这里的方法和[[空间数据分析#空间Sandwich抽样]]里面的想法是完全一致的,实际上他们干的事情就是一样的,把抽样和推断结合起来而不是分开进行叙述了
空间格局
空间格局研究那些完全超出随机差异的空间差异,它属于[[空间数据分析#空间探索性数据分析SEDA]]的范畴,只是我们没有在那些介绍其理论思想。
空间点格局
点格局的识别方法主要有四种,他们的输入和输出都各不相同,根据数据的形式与需求选择方法即可。我们分析的数据对象是前面介绍的[[空间数据分析#点数据]]
样方分析
样方分析 (quadrant analysis QA)使用一组正方形网格套在研究区域上,统计各个网格里面的点数均值与方差,然后使用均值与方差来研究空间格局是随机的,分散的,还是聚集的
一般我们使用VMR来作为具体的指标 他满足 \(VRM=\frac{\sqrt{Var(X)}}{\bar{X}}\) \(VRM\sim \chi^2(n-1)\) 当均匀分布的时候,$VRM=0$ 当随机分布的时候 $VRM=1$ 当$VRM>1$ 的时候,则认为存在聚集
最邻近指数
最邻近指数方法 (nearest neighbor indicator NNI)通过点对最邻近距离来判断分布模式。其思路是比较实际观测的最邻近点对平均距离和随机分布模式最邻近距离点对平均距离。
最邻近距离的计算式为 \(r=\frac{1}{n}\sum_{i=1}^{n}\min\left(d_{ij}\mid\forall j\right)\)
随机分布的最邻近距离为 $Er = 0.5\sqrt{A/n}$ 其中$A$ 是研究区域面积
定义最邻近指数NNI有 \(NNI = \frac{r}{Er}\)
NNI以1为分界线 大于1意味着样本分散。小于1意味着样本聚集
层次聚集
按照距离聚类的方法寻找空间上存在的聚集点
Ripley’s K函数
点要素的分布特征可能会根据观察尺度的变化而发生变化,小尺度的聚集现象可能在更大尺度上呈现为随机分布或者均匀分布。Ripley’s K函数可以分析任意尺度的空间分布格局,因此是空间点格局的最常用分析方法
变量Ripley’s K(d)函数 表示距离$d$内的时间平均数和区域内事件密度的比值 \(K\left(d\right)=\frac{\sum_{i=1}^{n}N\left(i,d\right)}{n}/\frac{n}{A}=\frac{A}{n^{2}}\sum_{i=1}^{n}N\left(i,d\right)\) 在这个式子中$n$ 为研究区内的事件数目,$N(i,d)$是和$i$ 距离为$d$ 范围内的事件数,$A$为研究区的面积, $\lambda=n/A$ 是事件空间密度。
我们能计算出,如果均匀分布的情况下,$K(d) = \pi d^2$ 据此我们可以构造下面的指标 \(\Delta\left(d\right)=K\left(d\right)-\pi d^{2}或L\left(d\right)=\sqrt{\frac{K\left(d\right)}{\pi}}-d\) 当如上的指标大于0的时候,表示点要素呈现聚集分布,小于0则体现了扩散分布
热点
热点研究属性值明显高于其他地方的子区域
各种热点研究方法的结果在实践来看大同小异
Gi
Getis-Ord Gi统计方法通过计算每个要素的Gi值来识别热点和冷点。如果一个区域的Gi值显著高于其他区域,那么这个区域可能被认为是一个热点。相反,如果Gi值显著低于其他区域,则可能是一个冷点
Gi值的计算公式为 \(G_{i}^{*}\left(d\right)=\frac{\sum_{j=1}^{N}w_{ij}\left(d\right)y_{j}}{\sum_{j=1}^{N}y_{j}}\)
各种GIS都提供Gi值的热点评估方法,他很可能受到我们设置的尺度$d$的影响
LISA
LISA(local indicator of spatial association )特称为区域的 Moran’s I 指数,用来衡量局部空间的空间自相关性问题,也就是热点问题
其计算公式为 \(I_{i}=\frac{y_{i}-\overline{y}}{S^{2}}\sum_{j}^{n}w_{ij}\left(y_{j}-\overline{y}\right)\)
空间扫描统计量SatScan
空间扫描是用一系列扫描圆在研究区域内探测聚集性的方法。通过圆内外病例的实际值和期望值计算似然比。根据不同病例(这是研究疾病的聚集性方法)的概率分布情况,使用不同的似然比公式求解,
泊松似然比值计算公式为 \(LR=\left(\frac{c}{\mu}\right)^{c}\left(\frac{C-c}{C-\mu}\right)^{C-c}=\left(\frac{c}{n\frac{C}{N}}\right)^{c}\left(\frac{C-c}{C-n\frac{C}{N}}\right)^{C-c}\)
空间分异
空间分异指的是研究空间分层异质性,他们都可以使用$q$ 统计量来回答,我们在[[空间数据分析#地理探测器]]里再研究这种空间格局属性
空间回归
空间自相关性会影响经典线性回归模型的结果,此时我们需要采用考虑了空间相关性的回归模型
格数据的通用回归模型
空间回归方程的通用形式由Anselin给出 \(y=\rho W_{1}y+X\beta+\varepsilon ~~\\\varepsilon=\lambda W_{2}\varepsilon+\mu,\mu\sim N\left(0,\Omega\right),\Omega_{ij}=h_{i}\left(za\right),h_{i}>0\) 其中 $X$ 是自变量矩阵 来自传统的回归模型 $y$ 是观测向量 $W_1$ 反应样本之间的连接关系 $p$ 是空间滞后变量的系数。 $W_2$ 反应残差之间的空间连接关系 可以设置的和 $W_1$ 完全相同
综上所述 整个回归方程有三个超参数在控制 $\lambda ,\rho, a$
在他们全部取0 的时候 这就是经典回归方程 在通用方程的基础上,产生了两个 lattice data 空间回归模型 分别是空间滞后模型和空间误差模型
空间滞后模型
我们在通用模型的基础上,空间滞后模型的基本形式为 \(y=\rho Wy+X\beta+\mu\)
这个模型考虑了空间连接情况下的自相关性 实际上此时我们让超参数 $\lambda = 0$
空间误差模型
如果空间依赖性是忽略了某个空间影响的自变量导致的,那么空间误差模型可以对此进行建模,此时我们让 $\rho = 0$ 用残差之间的自相关性进行建模,模型的基本形式为 \(\begin{gathered} y=X\beta+\varepsilon \\ \varepsilon=\lambda W\varepsilon+\mu \end{gathered}\) Anselin对两种模型的选择建议是进行 拉格朗日乘数检验量 LM - error 进行显著性检验,选择较为显著的那个,都不显著则回归采用OLS进行建模
地理加权回归(GWR)
地理加权回归(geographical weighting regression)的思想本质是局部回归,构建局部的线性回归模型进行建模,他的回归系数$a$ 不再是全局性的统一单值,而是随空间进行变化的
地理加权回归的思想接近于[[机器学习导论与监督学习#集成学习#动态分类器选择(DCS)]] 但是仍有区别
GWR的求解采用局部的加权最小二乘回归,权是待估计点的地理位置距离到其他观测点的距离函数。其数学模型的形式为 \(y_{i}=a_{0}\left(u_{i},v_{i}\right)+\sum_{k}a_{k}\left(u_{i},v_{i}\right)x_{ik}+\varepsilon_{i}\) 其中$u_i,v_i$ 是空间坐标
地理探测器
空间回归是将因变量$Y$和自变量$X$ 建立关联,实际上因变量和自变量在空间分布上的一致性也体现了他们的关联,这种关联就需要用地理探测器进行挖掘。
线性回归模型显著的时候,地理探测器必定显著,而反之未必,只要变量之间有关系,地理探测器就能探测出来。
地理探测器以空间分层异质性为研究对象,核心思想是: 只要自变量对因变量有影响,那么空间分布应该存在一致性 这里的空间可以是地理空间 属性空间 时间分类等多种变量
地理探测器包含四个探测器,分别回答
- 是否存在空间分层异质性,分层异质性是什么因素导致的
- 变量 $Y$ 是否存在显著的差别
- $X$ 之间的相对重要性如何
- 因素 $X$ 对 $Y$ 是独立的还是存在任何意义上的交互
空间分层异质性及因子探测
对于第一个问题,我们采用$q$ 值度量 \(q=1-\frac{\sum_{h=1}^{L}N_{h}\sigma_{h}^{2}}{N\sigma^{2}}=1-\frac{SSW}{SST}\)
其中$h$ 是分层编号
$q$ 值越大 则体现了$Y$的空间分异越明显(如果分层使用Y进行的) 当分层用 $X$ 进行的时候,$q$ 值越大则体现自变量对因变量的解释性越强
风险区探测
想要回答第二个问题 使用$t$ 统计量进行检验 \(t_{\overline{y}_{h-1}-\overline{y}_{h-2}}=\frac{\overline{Y}_{h=1}-\overline{Y}_{h=2}}{\left[\frac{Var\left(\overline{Y}_{h=1}\right)}{n_{h1}}+\frac{Var\left(\overline{Y}_{h=2}\right)}{n_{h=2}}\right]^{1/2}}\) 其中$h$ 是分层编号
生态探测
对于第二个问题,我们可以给出看看两个自变量之间哪个更重要 构造F统计量 \(F=\frac{n_{X1}\left(n_{x2}-1\right)SSW_{X1}}{n_{X2}\left(n_{x1}-1\right)SSW_{X2}}\)
交互检测
对于第四个问题,我们使用的方法是
- 分别计算两种因子对 $Y$ 的 $q$ 值
- 叠加两个因子相切形成的层为新的层 计算新层的$q$ 值
- 比较三个$q$ 值 判断交互作用
其中判据表格为
| 判据 | 交互作用 |
|---|---|
| $q_{12} < min {q_1,q_2}$ | 非线性减弱 |
| $min {q_1,q_2}<q_{12} < max {q_1,q_2}$ | 单因子非线性减弱 |
| $max {q_1,q_2}<q_{12}$ | 双因子增强 |
| $q_{12} = q_1+q_2$ | 独立 |
| $q_{12} > q_1+q_2$ | 非线性增强 |
时空分析方法
时空分析需要将时间数据和空间数据结合进行分析,这里留给以后进行学习了 主要包含
- EOF与小波分析
- 贝叶斯最大熵
- 贝叶斯层次模型
- 地理演化树
- Genbank 序列时空进化分析