白话空间统计二十四:地理加权回归(六)ArcGIS的GWR工具参数说明一

article/2025/9/29 11:33:53
(再次接近6000字,诚意满满啊)

从这一章开始进入实际操作环节……首先还是用ArcGIS,毕竟这个东西比较容易。

实际上要说起来,GWR有专门的软件,叫做GWR,但是这个软件暂时我还没有用过,所以等我先学习一下,把他放到最后才说了,先用比较熟悉的,比如ArcGIS、比如R语言,这些来讲讲(还有一个我非常熟悉的软件是GEODA,可惜GEODA仅支持回归分析,不支持地理加权回归)。

数据还是用上次山东的那一份,在番外篇中,用财政收入作为因变量,自变量选择工业总产值,消费品零售额,总出口以及固定资产投资作为自变量,完成了OLS回归分析,然后进行了残差可视化,有兴趣的同学去翻翻以前的文章:

白话空间统计二十三回归分析番外:残差可视化

看看要进行分析的数据:




下面先来解释一下ArcGIS提供给我们的GWR工具的各个参数设置:

地理加权回归分析工具的位置,在空间统计工具箱——空间关系建模工具集——地理加权回归工具(如下所示:)




下面是各个参数的意义(话说这一部分在ArcGIS帮助文档里面都有的,但是我知道要让大家像虾神这样(变态)无聊,把ArcGIS帮助文档放到手机上,还是有点勉为其难,所以这这里写了)


虾神私人推介……有兴趣做空间统计的,可以把ArcGIS的帮助文档拷贝到手机上……很多APP都直接直接打开chm格式的。

工具界面如下:




1、输入要素:
    ArcGIS的空间统计工具箱,主要针对的是矢量数据,所以这里的输入一定是矢量图层,可以是点线面,但是不能是多点(但是可以是多部分要素,因为对面状空间要素处理的时候,通常采用的是质心来进行计算,多部分面状要素不会影响GWR的处理)。
    
    在要素类的设定上,应该避免有空间错误的数据:比如有属性无空间要素,如果出现这样的数据,可能会发生错误。
    
    在制作数据的时候,尽量把需要使用的数据都合并到一个要素类中,每一个变量(应、自)都应该是一列独立的数据,而且一定不能出现空值(如果出现了空值,或者表示空值的0值,首先就要将这行数据从分析样本中移除,或者补全之后在使用。
    
    使用的变量中,尽量不要使用哑元(dummy,ArcGIS的官方翻译中,把这个词翻译成“哑元”,实际上在实际上在计量经济学里面,把它称为:虚拟变量(dummy variable),意思是表示该变量只能表示“有”和“无”这两种情况,在计算机里面常备称为二值化变量,即放到模型中就只有1和0两个值,比如该时间发生了,就记为1,没发生就记为0。在计量经济学里面,dummy variable是很重要的一个概念,大家有兴趣自己去查询相关资料,这里为了保持上下文一致,我使用ArcGIS的翻译方法,把这个东东继续叫做“哑元”)
    
    因为在使用二值化的时候,到底哪个类别为0,那个类别为1,是可以任意设置的(比如前进和后退,可以认为前进设置为1,后退设置为0,也可以反向设置,后退为1,前进为0)不管如何设置,都不会影响检验的结果。在GWR中,如果使用哑元作为某个变量的值,会导致分析中出现严重的多重共线性。
    
    空间统计分析里面,空间关系概念一旦涉及“距离”的时候,尽量使用投影坐标系,当然,如果使用经纬度,对分析的过程不会产生多大影响,但是对分析的结果会有一些影响(特别是对核带宽进行设置的时候)。
    
    (关于输入要素的其他情况,有兴趣的时候专门开一篇数据处理来讲……这里先直接略过了)

2、因变量字段。
    这个字段包含因变量的值,一个回归方程只能有一个因变量,没啥好说的。注意别使用哑元就好了。

3、解释变量(自变量)字段。
    包含了解释变量的字段,最少一个。系统会自动筛选掉文本型的数据,只保留数值型。但是不筛选哑元值,所以需要自行设置。
    
    另外,自变量的顺序和分析的结果没有任何关系。

4、输出结果
    用户承载分析结果的要素图层,分析结果的解读后面会详细说。

5、核的类型
    此参数并非是让我们选择核函数(ArcGIS只提供了高斯核函数,没得选),这参数是让我们决定核函数如何构成?分析的数据用什么方式来参与。 工具提供两种核函数:
    FIXED :固定距离法,也就是按照一定的距离来选择带宽,创建核表面
    ADAPTIVE :自适应法。按照要素样本分布的疏密,来创建核表面,如果要素分布紧密,则核表面覆盖的范围小,反之则大。
    
    默认会使用固定方式,因为固定方式能够生成更加平滑的核表面。
    
6、核带宽
    此参数用于设定GWR的带宽,通过以前的文章,我们知道带宽的选择非常关键,而且GWR专门用两种方式来选择更好的带宽,但是也留出了自定义的模式,所以这个参数有三个选项:
    CV:通过交叉验证法来决定最佳带宽。
    AIC:通过最小信息准则来决定最佳带宽。
    BANDWIDTH_PARAMETER :指定宽度或者临近要素数目的方法。如果选择这种方法,后面的7\8两个参数,才变为可用状态。如果选择CV或者AIC法,带宽是通过计算来决定的,所以距离参数将不可用。而采用指定的方法,我们可以通过自定义的方式,来决定带宽
    
    为什么需要留出这样一个可以自定义带宽的参数呢?因为CV法和AIC法,都是系统计算出来的带宽,特别是AIC法,可能能够达到很好的拟合度,但是回归是不是拟合度越高越好呢?这就不一定了,特别很多时候选择不同的带宽,可以揭示更多的细节的时候。
    关于这个问题,可以参考下面的文章:
    白话空间统计二十一:密度分析(五)
    
    
7、距离(可选)
    如果在参数6中,选择了自定义带宽模式,那么这个参数就变为可用了。注意,这里设定的带宽距离单位,是要素类的空间参考中的单位,如果你是经纬度的话,这里设定的也是经纬度(设置为1,就是1度,在中国范围内,约为108公里左右),所以如果要更精确,最好把数据投影为投影坐标系。

8、临近要素的数目(可选)
    如果核类型为自适应(ADAPTIVE),以及核带宽为BANDWIDTH_PARAMETER的时候,此参数才为可用,默认是30,表示选择回归点周边的30个点作为核局部带宽中作为临近要素的点。

9:权重字段(可选):
    本工具可以对每个要素设置独立的权重,把这个将要设定的权重写入一个字段,然后设置到此就行。
    
    一旦设置了权重,就说明这个(些)要素在进行校验的时候,会比其他要素更加重要。
    
    在很多时候,独立设置的权重有着很重大的意义。如下图所示:
    
要用4个区域的钾含量要进行计算,那么就从四个区域布点进行采样,用采样的平均值来作为每个区域的含量值,可以看见A区域足足布置了20个采样点,D区域3个,BC分别都是2个,这样来说,A区域的钾含量是20个点的平均值,在四个区域里面,A区域的钾含量最接近平稳值,所以在计算的时候,我们可以把每个区域的采样点数放到一个字段里面,作为这个区域的权重——这样来说,在计算的时候A区域的数据,比其他几个区域的数据具有更大的影响力。

具体的参数就先说到这里,GWR后面还有一系列的扩展参数,下一节我们再继续说。

待续未完。


http://chatgpt.dhexx.cn/article/6aVQbBSG.shtml

相关文章

地理加权回归 | 模型如何应用于新数据的预测?

专注系列化、高质量的R语言教程 推文索引 | 联系小编 | 付费合集 有读者不知道如何用地理加权回归去预测新的数据。本篇以常用的两个工具包为例进行介绍。 本篇目录如下: 0 数据准备1 spgwr工具包2 GWmodel工具包3 结语 相关推文: spgwr | R语言与地理加…

城市数据派(多尺度地理加权回归理论与应用——关于地理加权回归GWR和多尺度地理加权回归MGWR)

目前,GWR已经成为处理空间异质性的主要方法之一。与经典的全局回归模型的OLS不同,GWR是局部回归模型,模型系数是通过观测周围的样本来回归得到。 在这里插入图片描述

R语言地理加权回归数据分析

在自然和社会科学领域有大量与地理或空间有关的数据,这一类数据一般具有严重的空间异质性,而通常的统计学方法并不能处理空间异质性,因而对此类型的数据无能为力。以地理加权回归为基础的一系列方法:经典地理加权回归,…

白话空间统计二十四:地理加权回归(五)

这是写概念的最后一节……从下一节开始,大家就可以告别枯燥的理论和概念了(此处应有掌声) 上一章节写到,地理加权中,空间关系的比广义的空间关系的限制要多得多,常用的就是用距离衰减的方法,而…

白话空间统计二十四:地理加权回归(八)结果解读(一)

地理加权回归分析完成之后,与OLS不同的是会默认生成一张可视化图,像下面这张一样的: 这种图里面数值和颜色,主要是系数的标准误差。主要用来衡量每个系数估计值的可靠性。标准误差与实际系数值相比较小时,这些估计值…

GWmodel | 地理加权模型(Ⅱ-2):如何查看地理加权回归的显著性

《地理加权模型》系列自推出来,深受各位读者喜爱。前几天有读者问:使用gwr()等函数运行模型后,怎么去查看它里面的信息呢?比如如何看变量系数的显著性。本篇就来介绍如何在R语言中去查看GWR模型的输出结果。 对于一般模型如线型模…

多尺度地理加权回归(MGWR),地理加权回归(GWR),最小二乘法(OLS)回归模型的对比分析

MGWR(Multiscale Geographic Weighted Regression多尺度地理加权回归) 一,概念 经典GWR由Fotheringham在1996年提出,基于构建空间权重矩阵的回归模型,普遍用于空间的影响因素分析上。SGWR(半参数地理加权…

白话空间统计二十四:地理加权回归(四)

本来这一章准备直接写(照抄)ArcGIS的帮助文档,写地理加权回归工具的使用……,然后就直接结束地理加权回归的,但是近来收到不少同学的邮件,很多都是掉在了当年虾神挖出的大坑里面,比如写了方法&a…

白话空间统计二十四:地理加权回归(二)

六千多字的大篇……诚意满满啊…… 橘生淮南则为橘,生于淮北则为枳,叶徒相似,其实味不同。所以然者何?水土异也。——《晏子春秋内篇杂下》 水土不服、南北差异,(包括地域歧视)是自古以来的一…

白话空间统计二十四:地理加权回归(三)

本章有数学公式……对数学过敏者慎入…… 前文再续,书接上一回……上一次说到,在改进全局回归的基础上,GWR终于横空出世了,从此空间分析领域终于有了自己专用的回归算法。如果说,空间统计有别于经典统计学的两大特征&…

用ArcGIS做GTWR 时空地理加权回归分析

空间异质性是空间计量回归的重要研究对象,通常采用地理加权回归模型进行分析,而ArcGIS自带工具箱只能支持截面数据的地理加权回归。要分析面板数据则采用地理和时间加权回归( GTWR),该模型是一个局部线性回归模型&…

ArcGIS与地理加权回归【三】

开 工 大 急 原址链接: ArcGIS与地理加权回归【三】https://mp.weixin.qq.com/s/x85EXKImSHio1IZovW9qdA 接着5个月之前.......ArcGIS与地理加权回归GWR【二】以及MGWR软件下载 在ASU下载了样例“关于影响佐治亚州受教育水平”的数据。在上一篇已简单介绍…

白话空间统计二十四:地理加权回归(一)

二十四在人的生活中有举足轻重的地位,一年有二十四个节气,一天有二十四个小时。中国的正史称之为“二十四史”(有人说加清史就二十五了……但是正史这个词,出自清乾隆钦定二十四史,所以一直“正史”这个词,…

ArcGIS Pro中的回归分析浅析(下)地理加权回归工具(GWR)使用小结

内容导读 1)回归概念介绍; 2)探索性回归工具(解释变量的选择)使用; 3)广义线性回归工具(GLR)使用; *加更:广义线性回归工具的补充内容 4)地理加权回归工…

地理加权回归简易总结

地理加权回归 空间统计有别于经典统计学的两大特征:空间相关性和空间异质性,莫兰指数等可以用来量化空间相关性,那么地理加权回归,就可以用来量化空间异质性。 1.地理加权回归的出现: 1)因为地理位置的变…

(学习笔记)地理加权回归(GWR)、多尺度地理加权回归(MGWR)原理与软件实现

1回归 1.1回归 回归分析是最常用的社会科学统计方法。回归用于评估两个或更多要素属性之间的关系。通过回归分析,我们可以对空间关系进行建模、检查和探究;回归分析还可以帮助解释所观测到的空间模式背后的诸多因素,例如为什么有些地区会持…

ArcGIS与地理加权回归GWR【一】

公众号原文 ArcGIS与地理加权回归GWR【一】https://mp.weixin.qq.com/s/fMPYxO3G7ff2192ZQICN-A 开个新坑啊,写一写关于地理加权回归基础的东西(深了我也不会啊),希望也能用通俗的语言来记录一下我以前学习空间统计过程中的理解…

[信息论与编码理论专题-2]:信息与熵

作者主页(文火冰糖的硅基工坊):https://blog.csdn.net/HiWangWenBing 本文网址:https://blog.csdn.net/HiWangWenBing/article/details/118526747 前言:什么是熵 熵的概念是由德国物理学家克劳修斯于1865年所提出。最初是用来描述“能量退化…

熵编码(算术+霍夫曼)编解码基础知识总结

在MPEG的TMC13模型中,对于surface point cloud compression,对block和vertices进行熵编码;对于lidar point cloud compression,需要对量化残差进行算术编码。这里对熵编码相关的知识进行了总结。 熵编码: (1)https://blog.csdn.n…