白话空间统计二十四:地理加权回归(三)

article/2025/9/30 8:16:51

本章有数学公式……对数学过敏者慎入……

前文再续,书接上一回……上一次说到,在改进全局回归的基础上,GWR终于横空出世了,从此空间分析领域终于有了自己专用的回归算法。如果说,空间统计有别于经典统计学的两大特征:空间相关性和空间异质性,莫兰指数等可以用来量化空间相关性,那么地理加权回归,就可以用来量化空间异质性。

在对全局回归问题的改进中,局部回归可以说是最简单的方法,GWR继续应用了局部回归的思想,但是在局部窗口的模式下,遵循了所谓的“地理学第一定律”,在回归的时候,使用了空间关系作为权重加入到运算中,下面通过一个示例来讲讲GWR的基本思想。

首先看看全局回归和局部回归:

在局部回归里面,设定一个窗口,然后按照设定的窗口大小,分别在每个局部中进行回归计算,实际上看来,就是一个缩小版的全局回归。

在看看地理加权回归:




地理加权和其他回归分析一样,首先要划定一个研究区域,当然,通常这个区域也可以包含整个研究数据的全体区域(以此扩展,你可以利用空间关系(比如k-临近),进行局部地理加权计算)……接下去最重要的就是利用每个要素的不同空间位置,去计算衰减函数,这个是一个连续的函数,有了这个衰减函数,当你把每个要素的空间位置(一般是坐标信息(x,y))和要素的值带入到这个函数里面之后,就可以得到一个权重值,这个值就可以带入到回归方程里面去。

 

所以可以看到,最重要的就是这个距离衰减函数,正因为有个这个衰减函数,得出不同权重,这个方法才会被叫做“地理加权回归分析”。这个衰减函数的理论基础,正是Tobler提出所谓的“地理学第一定律(Tobler's First Law或者Tobler's First Law of Geography):位置越接近的数据,比远处的数据对结果的影响更大。这个影响在数学上,就化为了权重。

 

利用这些公式,就可以对所有的样本点进行逐点的计算,每个样本点计算的时候,其他的参与计算的样本都会根据与这个样本点不同的空间关系赋予不同的权值,这样最后就可以得出每个不同样本的相关回归系数了。最后通过解读这些个系数,完成整个地理加权回归分析整个分析过程。

 

一直在强调这个衰减函数,那么考虑一下如果没有衰减呢?没有衰减的话,就发现所有的权重都是一样的(权重全部为1,1乘以任何数,都等于其本身)……那这个方程就变成了全局回归方程了。这样脱离了地理学第一定律,就立马变回了经典统计理论。

 

现在看看这个衰减函数如何来计算?

下面先贴公式,有数学恐惧症的同学请略过:



其中,W(ui,vi)是空间权重矩阵,这个概念请大家回头去看白话空间统计十七……不过鉴于大家难回头翻,我这里直接贴出来以前的内容吧:


权重矩阵,我们看看看这个空间权重矩阵到底是个啥东东:

左边这个东西,叫做无向图,由边那个,就是所谓的距离矩阵了。因为我们以前说过,在空间分析里面,需要进行空间关系的概念化,所以也通常称为空间权重矩阵。

当然这个权重矩阵为了简单明了,所以用的直接就是用最短距离作了矩阵里面的元素,比如B和C的距离,直接通过矩阵可以查询到WBC = 2 。

有权重矩阵之后,带入到矩阵中,得出如下方程:


在实际应用中,常见的空间权重函数主要有以下几种:
1、高斯函数:

其中,b是带宽(窗口大小),dij是样本点i和j的距离(至于是哪种距离,就看选择了(欧式、曼哈顿、闵可夫斯基、球面、余弦等))。

2、双重平方函数(bi-square)



这两种距离函数都非常倚赖带宽b,那么这个带宽和确定呢?国际上最普遍的方法就是用Cleveland(1979)和Bowman(1984)提出的交叉确认(cross-validation,CV)方法来确定:


这个方法,利用了拟合值来进行计算,其中


就是i处的拟合值,(为什么不用观测值?答:观测值还要跟着一个非线性的残差……直接用拟合值,更容易计算),当CV值到达最小的时候,对应的b就是所需要的带宽。由于采用不同的空间加权函数会得到不同的带宽,那么为了取得最优的带宽,Fotheringham等在2002的论文中提出了这样一个准则:当GWR模型的AIC最小的时候,就是最佳带宽。

好吧,这里又蹦出了一个新名词:AIC。。。那么这篇文章就以简介一下这个东东是个啥,来做一个结尾:

Akaike information criterion、简称AIC,是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。(这句话来自百度)
听完之后,反正虾神我的感觉是这样的:


大家有兴趣自己去研究,最后贴出历史科普信息:

下面这个老爷子就是赤池弘次,日文原版:


有兴趣的同学,可以去他的纪念站点去看看

http://www.ism.ac.jp/akaikememorial/


本文的公式,摘自北京大学出版社的《空间计量经济学》沈体雁等编著,在虾神共享的书单里面有,有兴趣的同学之间去看。


最后需要共享书单的,还是老规矩,通过公众号获取邮箱,然后发送一封需要啥东西的邮件即可。


http://chatgpt.dhexx.cn/article/PTm3agl6.shtml

相关文章

用ArcGIS做GTWR 时空地理加权回归分析

空间异质性是空间计量回归的重要研究对象,通常采用地理加权回归模型进行分析,而ArcGIS自带工具箱只能支持截面数据的地理加权回归。要分析面板数据则采用地理和时间加权回归( GTWR),该模型是一个局部线性回归模型&…

ArcGIS与地理加权回归【三】

开 工 大 急 原址链接: ArcGIS与地理加权回归【三】https://mp.weixin.qq.com/s/x85EXKImSHio1IZovW9qdA 接着5个月之前.......ArcGIS与地理加权回归GWR【二】以及MGWR软件下载 在ASU下载了样例“关于影响佐治亚州受教育水平”的数据。在上一篇已简单介绍…

白话空间统计二十四:地理加权回归(一)

二十四在人的生活中有举足轻重的地位,一年有二十四个节气,一天有二十四个小时。中国的正史称之为“二十四史”(有人说加清史就二十五了……但是正史这个词,出自清乾隆钦定二十四史,所以一直“正史”这个词,…

ArcGIS Pro中的回归分析浅析(下)地理加权回归工具(GWR)使用小结

内容导读 1)回归概念介绍; 2)探索性回归工具(解释变量的选择)使用; 3)广义线性回归工具(GLR)使用; *加更:广义线性回归工具的补充内容 4)地理加权回归工…

地理加权回归简易总结

地理加权回归 空间统计有别于经典统计学的两大特征:空间相关性和空间异质性,莫兰指数等可以用来量化空间相关性,那么地理加权回归,就可以用来量化空间异质性。 1.地理加权回归的出现: 1)因为地理位置的变…

(学习笔记)地理加权回归(GWR)、多尺度地理加权回归(MGWR)原理与软件实现

1回归 1.1回归 回归分析是最常用的社会科学统计方法。回归用于评估两个或更多要素属性之间的关系。通过回归分析,我们可以对空间关系进行建模、检查和探究;回归分析还可以帮助解释所观测到的空间模式背后的诸多因素,例如为什么有些地区会持…

ArcGIS与地理加权回归GWR【一】

公众号原文 ArcGIS与地理加权回归GWR【一】https://mp.weixin.qq.com/s/fMPYxO3G7ff2192ZQICN-A 开个新坑啊,写一写关于地理加权回归基础的东西(深了我也不会啊),希望也能用通俗的语言来记录一下我以前学习空间统计过程中的理解…

[信息论与编码理论专题-2]:信息与熵

作者主页(文火冰糖的硅基工坊):https://blog.csdn.net/HiWangWenBing 本文网址:https://blog.csdn.net/HiWangWenBing/article/details/118526747 前言:什么是熵 熵的概念是由德国物理学家克劳修斯于1865年所提出。最初是用来描述“能量退化…

熵编码(算术+霍夫曼)编解码基础知识总结

在MPEG的TMC13模型中,对于surface point cloud compression,对block和vertices进行熵编码;对于lidar point cloud compression,需要对量化残差进行算术编码。这里对熵编码相关的知识进行了总结。 熵编码: (1)https://blog.csdn.n…

2 熵与编码

先来尝试编码一副扑克牌,首先考虑花色rank的方式编码,如下图,即第一张牌是0,最后一张是51(一共52张牌) 在一个集合中,假设最大元素为M,那么我们对M编码需要的最小编码长度为log2M&a…

编码原理详解(五)---熵编码(CAVAL)

上一篇我们讲到了ZigZag扫描,经过这一扫描之后,发现原本是4*4的像素矩阵,就变成了一连串的数字,可以说是二维到一维的一个转换吧,而且经过ZigZag扫描后,一连串的数字的最后大部分为0,以及一些1,…

信息熵与编码定理

惊奇度与信息量 定性描述 惊奇度:一个事件的惊奇度是指该事件发生时我们所感到的惊奇程度 信息量:一条信息的信息量是指该信息所含信息的多少。一条信息越是让我们感到惊奇,它所含信息量就越大 对于一个掷骰子的试验,假设E代表掷…

熵编码算法Range encoding工程原理和实现

在压缩算法中,熵编码是其中重要的无损压缩步骤。熵编码算法根据香农定理,对出现概率大的源符号用较少的编码符号进行编码,对概率小的源符号用较多的编码符号进行编码,尽可能地逼近压缩的极限。 目前各类压缩工具使用的熵编码算法主…

七、熵编码算法(1):基础知识

一、熵编码的概念 熵 化学和热力学,用于度量能量退化的指标熵越高,物体或系统的做功能力越低 信息学中的熵 表示信源所发出信息的不确定性越是随机的、前后不相关的信息,其熵越高 信源编码定理 说明了香农熵与信源符号概率之间的关系信息的熵…

【Codecs系列】CABAC熵编码详解

Date: 2018.5.9 转载自:https://blog.csdn.net/listener51/article/details/60970635 目录 1. 信息熵的概念 2. 定长编码 3. 变长编码 3.1 哈夫曼编码 3.2 算术编码  3.2.1 传统编码方法 3.2.2 算术编码 3.2.3 二进制算术编码 4. …

第8章 熵编码

http://www.cnblogs.com/xkfz007/archive/2012/07/29/2614250.html 1. 熵编码 熵(Entropy):信源的平均信息量,更精确的描述为表示信源所有符号包含信息的平均比特数 信源编码要尽可能的减少信源的冗余,使之接近熵 用…

熵编码之CABAC

CABAC(Context-based Adaptive Binary Arithmetic Coding),基于上下文的自适应二进制算术编码。CABAC是H.264/AVC标准中两种熵编码中的一种,它的编码核心算法就是算术编码(Arithmetic Coding)。 算术编码 传…

信息熵、编码冗余/信息熵冗余、压缩与解压缩速度

信息熵:是指数据所带的信息量。信息量与信源包含的事件发生的概率有关,事件概率越大,信息量越小;事件概率越小,信息量越大。将信源所有可能事件的信息量进行平均,就得到信息的熵(Entropy&#x…

信息熵和压缩编码

目录 一、信息熵是什么?二、两种编码压缩2.1 香农-范诺编码简述2.2 特例详解 三、哈夫曼编码3.1 哈夫曼编码简述3.2 特例详解 四、RGB图像压缩 一、信息熵是什么? 信息:信息,指音讯、消息、通讯系统传输和处理的对象,…