ArcGIS与地理加权回归GWR【一】

article/2025/9/30 8:15:03

公众号原文

ArcGIS与地理加权回归GWR【一】https://mp.weixin.qq.com/s/fMPYxO3G7ff2192ZQICN-A

开个新坑啊,写一写关于地理加权回归基础的东西(深了我也不会啊),希望也能用通俗的语言来记录一下我以前学习空间统计过程中的理解。

1. 传统线性回归

不管你有没有系统学习过,对于线性回归,相信多少都有那么点了解。回归分析实质上就是研究一个或多个自变量X对一个因变量Y的影响关系情况,如研究各地房价影响因素。X1-Xn是n个自变量,β0-βn是未知参数,可以使用最小二乘法进行估计,即β0-βn的最小二乘估计(那个β尖符号)。当自变量为1个时,是一元线性回归,自变量为2个及以上时,称为多元线性回归。

我也不会去深入巴拉一堆我也不专业的数学问题,地理加权回归正是在线性回归的基础上扩展而来,所谓青出于蓝而胜于蓝,那地理加权回归比传统的线性回归蓝在哪啊

一般线性回归都是全局的,由于空间自相关(地理学第一定律)和空间异质性(地理学第二定律)的存在,传统的回归模型不适用于处理地理空间数据。而GWR是在多元线性回归的基础上将数据的地理位置引入到回归系数之中。

2. 全局和局部

然后说明一下”全局回归“”局部回归“

线性回归可分为全局回归和局部回归,全局回归假定估计系数在全局内是平稳的,回归系数并不随着空间位置的改变而改变,如多元线性回归模型。好比经常说我们疫情防控整体稳中向好(WinWinWin);局部回归认为回归系数是局部光滑的,在全局内回归系数是不同的,有多个值的,好比稳中向好中也有个别地方爆发。如地理加权回归。简单的理解如下图,左边就是全局,右边就是局部。

外地想起四川便是标志性的熊猫与火锅,但在各地市眼里都很有特色

3. 地理篇

来看看地理加权回归中的“地理”,地理位置,没错,地理学第二定律登场:空间异质性,地理现象的空间变化以及变化的差异性,即不可控的空间变化规律。

单纯的举个例子,房价。在一个城市影响房价的因素是多样的,比如在A处,因为紧邻CBD房子卖的贵,在B处的老破小因为旁边有个好学校卖的也贵,在C因为依山傍水环境好所以房子卖的还贵,所以在A处,紧邻CBD这个因素对房价解释度就很强,环境或者学校在A处反而没太有什么关系。

(可能会有人想到对房价产生影响的某些社会经济因素在一个区域的影响力是一样的或者变化非常小可以忽略不计,而某些因素又是变化,这就属于混合地理加权回归模型了,在此请不要想太多)。

因此,在实际问题研究中我们经常发现回归参数在不同地理位置上往往表现为不同,也就是说回归参数随地理位置变化,这时如果仍然采用全局空间回归模型(全局假设β是不会变得),得到的回归参数估计将是回归参数在整个研究区域内的平均值,如上所说某一个因素在ABC等不同的地理位置对房价的影响是不同的,假如采用全局空间回归模型,便忽略了数据的空间位置属性,只反映平均意义下因变量与自变量的相关关系,而不能有效反映回归关系的空间非平稳性的特征。

如果两个变量之间的关系(可用回归系数表达)存在空间异质性,也就是在不同的地方有不同的回归系数,统计学将这种变量关系的空间异质性称之为空间非平稳性

所以地理加权回归应运而生,它考虑了空间关系的影响。

其中(ui,vi)为第i个采样点的坐标;βk(ui,vi)是第i个采样点上第k个回归参数,为空间地理位置函数,通过房价例子来看,加入地理位置函数可以反映房屋价格随地理位置的变化而变化的规律。

4. 加权篇

根据地理学第一定律,”所有事物之间都有关系,但是相近的事物关联更紧密“。

因为地理加权回归中的回归参数在每个数据采样点上都是不同的,所以不能直接利用参数回归方法估计其中的未知参数,我们需要对每个采样点都进行一个估计,有多少采样点就估计多少个β。100个点就估计100个β,β1-βn的估计便是加权最小二乘,这个权重便是W(u0, v0),为什么要考虑空间权重呢,它的作用就是衡量回归点要借用周围哪些样本点去进行估计,换句话说,空间权重决定了(如下图底部蓝色的圆圈)圈的大小。这个圈范围大了,那就变得与传统线性回归一样了,范围小了呢样本点太少就没有意义了。

传统的线性回归估计是没有上式中W(u0, v0)这个空间权重矩阵的,所以没有考虑到距离对于采样点之间的相互影响,也就是没有体现地理学第一定律。
 

图中红圈的两个点本来就很近,假如被划分到两个不同的局部区域中,这样的话他们两个之间的相互影响关系都没有被考虑进去。图片来源是基于地理加权回归算法的中国台风设计风速区划图文章

所以根据数据所处空间位置,以不同数据点和回归点的空间距离为基础,对各数据点赋予不同的权重,离得近得样点在计算时候占的权重更大,离得远的样点占的权重小而后建立局部区域的加权回归方程。

根据地理学第一定律,GWR模型计算权重的基本原则为“距离越近,赋予的权重值越高;反之,权重值越低”。然后权重的具体计算(就是上图中的锥形),是通过关于空间距离的单调减函数实现,称之为核函数。有全局(Global)函数,距离阈值(Box-Car)函数,指数(Exponential)函数,高斯(Gaussian)函数,双重平方(Bi-square)函数(一般都是这两种),三次立方(Tri-cube)函数。

5. 带宽篇

带宽与核函数紧密相关。带宽(就是上图中的那个θ)变大,锥形就比较平缓,权重衰减的就慢,带宽变小,锥形就比较陡峭,权重衰减的很快。如何确定带宽下次再说啦。

水平有限,有些过程没有表达很清楚,特别是加权,如有错误欢迎指正和补充。

 


http://chatgpt.dhexx.cn/article/Wwc3S1Cl.shtml

相关文章

[信息论与编码理论专题-2]:信息与熵

作者主页(文火冰糖的硅基工坊):https://blog.csdn.net/HiWangWenBing 本文网址:https://blog.csdn.net/HiWangWenBing/article/details/118526747 前言:什么是熵 熵的概念是由德国物理学家克劳修斯于1865年所提出。最初是用来描述“能量退化…

熵编码(算术+霍夫曼)编解码基础知识总结

在MPEG的TMC13模型中,对于surface point cloud compression,对block和vertices进行熵编码;对于lidar point cloud compression,需要对量化残差进行算术编码。这里对熵编码相关的知识进行了总结。 熵编码: (1)https://blog.csdn.n…

2 熵与编码

先来尝试编码一副扑克牌,首先考虑花色rank的方式编码,如下图,即第一张牌是0,最后一张是51(一共52张牌) 在一个集合中,假设最大元素为M,那么我们对M编码需要的最小编码长度为log2M&a…

编码原理详解(五)---熵编码(CAVAL)

上一篇我们讲到了ZigZag扫描,经过这一扫描之后,发现原本是4*4的像素矩阵,就变成了一连串的数字,可以说是二维到一维的一个转换吧,而且经过ZigZag扫描后,一连串的数字的最后大部分为0,以及一些1,…

信息熵与编码定理

惊奇度与信息量 定性描述 惊奇度:一个事件的惊奇度是指该事件发生时我们所感到的惊奇程度 信息量:一条信息的信息量是指该信息所含信息的多少。一条信息越是让我们感到惊奇,它所含信息量就越大 对于一个掷骰子的试验,假设E代表掷…

熵编码算法Range encoding工程原理和实现

在压缩算法中,熵编码是其中重要的无损压缩步骤。熵编码算法根据香农定理,对出现概率大的源符号用较少的编码符号进行编码,对概率小的源符号用较多的编码符号进行编码,尽可能地逼近压缩的极限。 目前各类压缩工具使用的熵编码算法主…

七、熵编码算法(1):基础知识

一、熵编码的概念 熵 化学和热力学,用于度量能量退化的指标熵越高,物体或系统的做功能力越低 信息学中的熵 表示信源所发出信息的不确定性越是随机的、前后不相关的信息,其熵越高 信源编码定理 说明了香农熵与信源符号概率之间的关系信息的熵…

【Codecs系列】CABAC熵编码详解

Date: 2018.5.9 转载自:https://blog.csdn.net/listener51/article/details/60970635 目录 1. 信息熵的概念 2. 定长编码 3. 变长编码 3.1 哈夫曼编码 3.2 算术编码  3.2.1 传统编码方法 3.2.2 算术编码 3.2.3 二进制算术编码 4. …

第8章 熵编码

http://www.cnblogs.com/xkfz007/archive/2012/07/29/2614250.html 1. 熵编码 熵(Entropy):信源的平均信息量,更精确的描述为表示信源所有符号包含信息的平均比特数 信源编码要尽可能的减少信源的冗余,使之接近熵 用…

熵编码之CABAC

CABAC(Context-based Adaptive Binary Arithmetic Coding),基于上下文的自适应二进制算术编码。CABAC是H.264/AVC标准中两种熵编码中的一种,它的编码核心算法就是算术编码(Arithmetic Coding)。 算术编码 传…

信息熵、编码冗余/信息熵冗余、压缩与解压缩速度

信息熵:是指数据所带的信息量。信息量与信源包含的事件发生的概率有关,事件概率越大,信息量越小;事件概率越小,信息量越大。将信源所有可能事件的信息量进行平均,就得到信息的熵(Entropy&#x…

信息熵和压缩编码

目录 一、信息熵是什么?二、两种编码压缩2.1 香农-范诺编码简述2.2 特例详解 三、哈夫曼编码3.1 哈夫曼编码简述3.2 特例详解 四、RGB图像压缩 一、信息熵是什么? 信息:信息,指音讯、消息、通讯系统传输和处理的对象,…

6.信息论(一):信息量、熵和最优编码

前言 信息论是由克劳德香农发展,用来找出信号处理与通信操作的基本限制,如数据压缩、可靠的存储和数据传输等。自创立以来,已被应用多个领域,例如自然语言处理(NLP)、机器学习等领域。 定长编码(Block Codes) 让我们从一个例子…

信息熵与编码

文章目录 一、信息熵的概念二、利用编码求压缩率1.香农-凡诺编码2.霍夫曼编码 三、实验证明图像字节四、文献参考 一、信息熵的概念 信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到…

熵编码原理

熵编码原理 一.熵编码原理1.原理介绍2.常见方案3.整数位元法4.熵编码模型二.熵编码CABAC介绍1.二进制化2.上下文建模3.二进制算术编码常规编码区间重归一化旁路编码 一.熵编码原理 1.原理介绍 熵编码即编码过程中按熵原理不丢失任何信息的编码。信息熵为信源的平均信息量&…

熵编码:CABAC

基于上下文的二进制算术编码(Context-Based Adaptive Binary Arithmetic Coding,CABAC)将自适应二进制算术编码和上下文模型相结合。是H.265/HEVC的主要熵编码方案。 主要包括三个步骤: 二进制化; 上下文建模; 二进…

熵编码:算术编码

算术编码不是简单的将每个信源符号映射成一个码字,而是对整个输入序列分配一个码字,所以平均意义上可以为每个信源符号分配长度小于1的码字。 算术编码操作简单,下面以一个实例讲解算术编码的原理: 设信源有a,b,c,d四种符号&…

GitLab-CI基础使用总结

思路梳理 下图是GitLab-ci的实现结构图: (实际结构会有出入,画成这样只是便于理解) GitLab:是一个基于 Git 的代码托管平台,提供了代码仓库管理、问题跟踪、CI/CD 等功能。它可以用于团队协作开发、版本控制、代码审查等场景。GitLab-runne…

Git --- Git Gui

目录 1. 创建和删除分支(了解即可) 2. Git Gui 3. 什么是ssh key 4. git/gitee生成密钥并通过 第一步:本地电脑配置 第二步:远程gitee仓库配置 第三步:修改你本地的ssh remote url. 不用https协议,改用git 协议 第四步&#x…