白话空间统计二十四:地理加权回归(四)

article/2025/9/30 0:30:55

本来这一章准备直接写(照抄)ArcGIS的帮助文档,写地理加权回归工具的使用……,然后就直接结束地理加权回归的,但是近来收到不少同学的邮件,很多都是掉在了当年虾神挖出的大坑里面,比如写了方法,没有列出公式,又比如写了公式木有推导过程(……作为高数战五渣的虾神,推导这种事,他认识我,我不认识他……)

所以这次写GWR的时候,尽量少挖点坑,把该写的东西都写完,一者为了以后路过的同学少掉点坑,二者好记性不如烂笔头(烂键盘……),干脆就写完作为读书笔记或者记忆索引吧。

所以地理加权回归,可能还要写上好几章的原理,如果想快进的同学,请直接去查阅ArcGIS帮助文档中的空间统计工具箱——空间关系建模——地理加权回归部分,安装了ArcGIS for desktop的同学直接可以打开帮助文档,也可以查阅一下地址:

http://pro.arcgis.com/zh-cn/pro-app/tool-reference/spatial-statistics/geographically-weighted-regression.htm


如果觉得帮助文档太晦涩,那么就只能耐心等等忙得焦头烂额的虾神了……

今天主要来写写地理加权回归中空间权重矩阵里面的空间权函数的选择,看完之后,大家就可以解释ArcGIS中的GWR工具里面两个重要参数的意义了。

上一节写过,地理加权回归最重要的内容,就是所谓的空间权重矩阵,空间权重矩阵用是空间关系概念化计算出来的,在ArcGIS里面,有七类空间关系概念,如下所示:



从前文分析可以知道,无论是临近方法,还是触点方法,都会导致局部回归的结果,也就是计算的区间不一样,会导致样本数量的变化,而全部加进来运算,又变成全局回归了,所以在GWR中,能且能够选择的,只有距离方法了。

首先看看距离阈值……距离阈值的概念就是




正如武学术语里面说的:近在咫尺,人尽敌国。

所以举着一把40米的长刀的话,尽可以很大方的说:“来吧,允许你先跑39米”……因为40米之内,都是攻击范围,可以看成是1……,四十米之外,都是0了,

所以距离阈值也就是一种局部回归,带来的问题请看上一篇文章,或者前几段。

剩下就只能是距离反比了,所谓的反比,就是距离越远,权重越小,看起来仿佛是很合理,因为这个说法符合是地理学第一定律的,越近关系越大,越远关系越小,所以给出这样一个距离公式:

其中α是一个常数,可以取1或者2(当然,你可以取得更大,它的意义是是否要突出距离变化的意义,参考下图)。根据ArcGIS官方的经验公式,这个值最好在0-3之间(最好不要等于0,等于0的话,d就变成常数了)。


但是,这也有一个问题,就是当我们的回归点,也是样本点的时候,就出现对回归点的观测值权值无穷大的情况……若要在每次计算的时候,把从样本数据中把这种情况剔除掉,又会出现精度降低等等一系列问题,所以反距离方法就不能直接在GWR中使用,需要进行一定的修正。

下面介绍一种在GWR中最常用的反距离改进方法函数。就是选择一个连续单调的递减函数来表示权重w和距离d之间关系,以此来克服反距离的缺点。这种方法一般来说,有很多函数都可以满足这种思想,只不过下面有两种函数因为普适性,应用最为广泛:

1、Gauss函数法

Gauss函数的表示形式如下:


函数表示如下:

其中所谓的带宽b,指的就是权重与距离之间函数关系的非负衰减参数,就像上面那个图所示,带宽越大,权重随距离的增加衰减的越慢,带宽越小,权重随距离的增加衰减的就快。这个参数与上面反距离里面的幂函数作用是一样,但是与直接的反距离公式不同的是:在这个公式里面,当带宽为0的时候,只有回归点上的权值为1,其他各观测点的权重都无限趋近0,这样来说,回归的过程也就是数据的重新表达而已。而带宽无穷大的时候,所有的观察点权重都无限接近1,那么就变成了全局回归了。

把数据带入之后,只要带宽给定了,距离d为0的时候,权重w =1 ,权重达到最大,而随着距离的增加,权重w逐渐减少,当离得足够源的时候,权重w就无限接近于0了。所以这些足够远的点,可以看成对回归点的参数估计几乎没有影响。

但是,如果数据非常离散,带来的结果就是有大量的数据躲得远远的,这种所谓的“长尾效应”会带来大量的计算开销,所以在实际运算中,应用的是近高斯函数来替代高斯计算,把那些没有影响(或者影响很少)的点给截掉,以提高效率,在fotheringham教授1998年的论文里面,也提出,采用bi-square函数来进行计算。

bi-square 函数的表示如下:




从上图可以看出,bi-square函数其实是距离阈值法和Gauss函数发法的结合。回归点在带宽的范围内,通过高斯联系单调递减函数计算数据点的权重,超出的部分,权重全部记为0。

这两种函数,在GWR的实际计算中,是用的最多的两类方法。

下一节预告:带宽的选择,是空间权重计算的一个重要参数,下一节将简单论述带宽选择的两种方法,说完这个概念之后,就正式进入软件操作介绍部分。

待续未完。


http://chatgpt.dhexx.cn/article/2OX0Su7Z.shtml

相关文章

白话空间统计二十四:地理加权回归(二)

六千多字的大篇……诚意满满啊…… 橘生淮南则为橘,生于淮北则为枳,叶徒相似,其实味不同。所以然者何?水土异也。——《晏子春秋内篇杂下》 水土不服、南北差异,(包括地域歧视)是自古以来的一…

白话空间统计二十四:地理加权回归(三)

本章有数学公式……对数学过敏者慎入…… 前文再续,书接上一回……上一次说到,在改进全局回归的基础上,GWR终于横空出世了,从此空间分析领域终于有了自己专用的回归算法。如果说,空间统计有别于经典统计学的两大特征&…

用ArcGIS做GTWR 时空地理加权回归分析

空间异质性是空间计量回归的重要研究对象,通常采用地理加权回归模型进行分析,而ArcGIS自带工具箱只能支持截面数据的地理加权回归。要分析面板数据则采用地理和时间加权回归( GTWR),该模型是一个局部线性回归模型&…

ArcGIS与地理加权回归【三】

开 工 大 急 原址链接: ArcGIS与地理加权回归【三】https://mp.weixin.qq.com/s/x85EXKImSHio1IZovW9qdA 接着5个月之前.......ArcGIS与地理加权回归GWR【二】以及MGWR软件下载 在ASU下载了样例“关于影响佐治亚州受教育水平”的数据。在上一篇已简单介绍…

白话空间统计二十四:地理加权回归(一)

二十四在人的生活中有举足轻重的地位,一年有二十四个节气,一天有二十四个小时。中国的正史称之为“二十四史”(有人说加清史就二十五了……但是正史这个词,出自清乾隆钦定二十四史,所以一直“正史”这个词,…

ArcGIS Pro中的回归分析浅析(下)地理加权回归工具(GWR)使用小结

内容导读 1)回归概念介绍; 2)探索性回归工具(解释变量的选择)使用; 3)广义线性回归工具(GLR)使用; *加更:广义线性回归工具的补充内容 4)地理加权回归工…

地理加权回归简易总结

地理加权回归 空间统计有别于经典统计学的两大特征:空间相关性和空间异质性,莫兰指数等可以用来量化空间相关性,那么地理加权回归,就可以用来量化空间异质性。 1.地理加权回归的出现: 1)因为地理位置的变…

(学习笔记)地理加权回归(GWR)、多尺度地理加权回归(MGWR)原理与软件实现

1回归 1.1回归 回归分析是最常用的社会科学统计方法。回归用于评估两个或更多要素属性之间的关系。通过回归分析,我们可以对空间关系进行建模、检查和探究;回归分析还可以帮助解释所观测到的空间模式背后的诸多因素,例如为什么有些地区会持…

ArcGIS与地理加权回归GWR【一】

公众号原文 ArcGIS与地理加权回归GWR【一】https://mp.weixin.qq.com/s/fMPYxO3G7ff2192ZQICN-A 开个新坑啊,写一写关于地理加权回归基础的东西(深了我也不会啊),希望也能用通俗的语言来记录一下我以前学习空间统计过程中的理解…

[信息论与编码理论专题-2]:信息与熵

作者主页(文火冰糖的硅基工坊):https://blog.csdn.net/HiWangWenBing 本文网址:https://blog.csdn.net/HiWangWenBing/article/details/118526747 前言:什么是熵 熵的概念是由德国物理学家克劳修斯于1865年所提出。最初是用来描述“能量退化…

熵编码(算术+霍夫曼)编解码基础知识总结

在MPEG的TMC13模型中,对于surface point cloud compression,对block和vertices进行熵编码;对于lidar point cloud compression,需要对量化残差进行算术编码。这里对熵编码相关的知识进行了总结。 熵编码: (1)https://blog.csdn.n…

2 熵与编码

先来尝试编码一副扑克牌,首先考虑花色rank的方式编码,如下图,即第一张牌是0,最后一张是51(一共52张牌) 在一个集合中,假设最大元素为M,那么我们对M编码需要的最小编码长度为log2M&a…

编码原理详解(五)---熵编码(CAVAL)

上一篇我们讲到了ZigZag扫描,经过这一扫描之后,发现原本是4*4的像素矩阵,就变成了一连串的数字,可以说是二维到一维的一个转换吧,而且经过ZigZag扫描后,一连串的数字的最后大部分为0,以及一些1,…

信息熵与编码定理

惊奇度与信息量 定性描述 惊奇度:一个事件的惊奇度是指该事件发生时我们所感到的惊奇程度 信息量:一条信息的信息量是指该信息所含信息的多少。一条信息越是让我们感到惊奇,它所含信息量就越大 对于一个掷骰子的试验,假设E代表掷…

熵编码算法Range encoding工程原理和实现

在压缩算法中,熵编码是其中重要的无损压缩步骤。熵编码算法根据香农定理,对出现概率大的源符号用较少的编码符号进行编码,对概率小的源符号用较多的编码符号进行编码,尽可能地逼近压缩的极限。 目前各类压缩工具使用的熵编码算法主…

七、熵编码算法(1):基础知识

一、熵编码的概念 熵 化学和热力学,用于度量能量退化的指标熵越高,物体或系统的做功能力越低 信息学中的熵 表示信源所发出信息的不确定性越是随机的、前后不相关的信息,其熵越高 信源编码定理 说明了香农熵与信源符号概率之间的关系信息的熵…

【Codecs系列】CABAC熵编码详解

Date: 2018.5.9 转载自:https://blog.csdn.net/listener51/article/details/60970635 目录 1. 信息熵的概念 2. 定长编码 3. 变长编码 3.1 哈夫曼编码 3.2 算术编码  3.2.1 传统编码方法 3.2.2 算术编码 3.2.3 二进制算术编码 4. …

第8章 熵编码

http://www.cnblogs.com/xkfz007/archive/2012/07/29/2614250.html 1. 熵编码 熵(Entropy):信源的平均信息量,更精确的描述为表示信源所有符号包含信息的平均比特数 信源编码要尽可能的减少信源的冗余,使之接近熵 用…

熵编码之CABAC

CABAC(Context-based Adaptive Binary Arithmetic Coding),基于上下文的自适应二进制算术编码。CABAC是H.264/AVC标准中两种熵编码中的一种,它的编码核心算法就是算术编码(Arithmetic Coding)。 算术编码 传…