白话空间统计二十四:地理加权回归(五)

article/2025/9/30 6:28:25
这是写概念的最后一节……从下一节开始,大家就可以告别枯燥的理论和概念了(此处应有掌声)

上一章节写到,地理加权中,空间关系的比广义的空间关系的限制要多得多,常用的就是用距离衰减的方法,而这种方法最常见的又是高斯函数以及扩展高斯函数方法,最后埋下了一个坑,高斯函数相关的算法,最重要的一个选择,就是带宽的定义。

讲到带宽这个词,实际上如果一直跟的同学,应该很熟悉了,我在《白话空间统计第二十一:密度分析》的第四节和第五节,对带宽的概念和意义,有过详细的阐述,不记得了的同学,或者没有看过的同学,可以访问以下文章:


白话空间统计第二十一:密度分析(四)

白话空间统计第二十一:密度分析(五)

实际上,所谓的带宽,通常就是一个影响的范围,从我上面两篇文章给出的所有例子,大家都会发现,实际上对各种函数的选择,都不那么敏感,但是对带宽的选择,确相当的敏感。可是如何选择最佳带宽,就实在是不好进行量化了,包括在密度分析里面,很多时候都用的是经验公式(或者说是视觉感来判定的),所幸的是,地理加权回归里面,提出了几个理论以及相应的指数来对“最佳”带宽,进行探索和应用。

首先第一个方法,就是最经典,也最常用的“交叉验证法”(Cross Validation)。其实在地理加权回归(三)的时候,简单讲过CV方法,但是不够详细,下面详细描述一下这个有着广泛应用的一种方法。

先还是进入历史科普时间:

最早提出CV方法的是美国普渡大学(purdue university)的计算机科学系教授William Swain Cleveland II (威廉 斯万 克利夫兰二世:下图那个老帅哥)在1979年提出的,开始提出来的时候,主要用来进行局部回归的验证,后来到处开花,成为了最优参数探索过程中的使用最广泛的方法。


普渡大学是我国两弹一星元勋邓稼先的母校,也是全美第一个开设计算机科学系的大学,属于全球理工类院校的扛把子之一。克利夫兰教授在耶鲁大学获得统计学博士之后,在贝尔实验室统计学研究部门工作和当然领导长达12年之久,后来加入普渡大学计算机系教授统计学和计算机科学,是全美顶级的计算机学家和统计学家。

交叉验证法的思想其实非常的简单,说起来就是分组轮流坐庄……可以参考美国大选——民主党上台执政,共和党负责在台下找茬监督;下一期,共和党上台执政了,民主党开始负责找茬 监督。


这种方法通俗的说起来,就是把数据分成N组,使用其中一部分用来计算,另外一部分数据就用来验证;之后用另一部分进行计算,使用前一部分进行验证。如下图所示的,用来验证几种战术优劣的方法:


如果要验证哪种战术效果最后,最简单的方法就是把所有队员分成若干组,然后用不同的战术相互进行PK,PK完了之后,重新随机分组(不断随机分组,是为了避免某个(些)队员个人能力超强这种情况),最后统计不同战术的胜率,优劣就自然出来了。这种方法就是交叉验证法的一种具体应用。

CV的公式如下所示:




其中,

表示在回归参数估计的时候,不包括回归点本身,只根据回归点周边的数据进行回归参数计算,然后把不同的带宽和不同的CV绘制成趋势线,那么就可以找出CV值最小的时候,对应的最佳带宽是多少了。

第二种方法,就是所谓的AIC法,(Akaike information criterion、简称AIC,有时候也叫“最小信息准则”或者“赤池信息量准则”,是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的),历史科普内容,请参考地理加权回归(三)。

AIC法的公式如下:


好吧,我知道这个公式很复杂……那么下面我们用最通俗的话来说说这个AIC法的原理是啥:

简单的说,就是用两个参数来对模型进行估计:

AIC = (2倍(模型的独立参数个数)- 两倍 ln(模型的极大似然函数))/ 观测值个数

ln是自然对数函数。

首先AIC法假设误差的出现是服从独立正态分布的,所以采用极大似然函数就有意义了。(极大似然函数的问题,请大家自信百度……简单的说,就是一种建立在统计分布上的估算方法,假设有N种结果,如果我们仅作一次实验,出现哪个结果,就认为哪个结果概率最大,这种简单粗暴的方法,我喜欢。)

这样这个方法就好理解了,当我们有一堆可供选择的模型参数的时候,选择AIC最小的那个就行……因为AIC的大小取决于独立参数的个数和模型的极大似然函数两个值,参数值少,AIC小,且极大似然函数大,AIC也小,参数少表示模型简洁,极大似然函数大表示模型精确。因此AIC和修正的决定系数类似,在评价模型是兼顾了简洁性和精确性

当两个模型之间存在较大差异的时候,这个差异肯定首先出现在模型的极大似然函数上;而这个函数没有出现显著的差异的时候,模型的独立参数个数才气作用了,从而,参数个数越少的模型,表现得越好。也就是这个原因,这个准则才被称为:最小信息准则。


AIC法认为加入自由参数,可以提高拟合度(废话,自由参数多了,不就非线性了么)……但是AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合。


到此为止,地理加权回归的所有概念,也就介绍完了,从下一章开始,进入实际操作环节,用ArcGIS和R语言等工具,来具体看看如何使用地理加权回归来解决实际分析过程。

待续未完


http://chatgpt.dhexx.cn/article/iV8f40Ll.shtml

相关文章

白话空间统计二十四:地理加权回归(八)结果解读(一)

地理加权回归分析完成之后,与OLS不同的是会默认生成一张可视化图,像下面这张一样的: 这种图里面数值和颜色,主要是系数的标准误差。主要用来衡量每个系数估计值的可靠性。标准误差与实际系数值相比较小时,这些估计值…

GWmodel | 地理加权模型(Ⅱ-2):如何查看地理加权回归的显著性

《地理加权模型》系列自推出来,深受各位读者喜爱。前几天有读者问:使用gwr()等函数运行模型后,怎么去查看它里面的信息呢?比如如何看变量系数的显著性。本篇就来介绍如何在R语言中去查看GWR模型的输出结果。 对于一般模型如线型模…

多尺度地理加权回归(MGWR),地理加权回归(GWR),最小二乘法(OLS)回归模型的对比分析

MGWR(Multiscale Geographic Weighted Regression多尺度地理加权回归) 一,概念 经典GWR由Fotheringham在1996年提出,基于构建空间权重矩阵的回归模型,普遍用于空间的影响因素分析上。SGWR(半参数地理加权…

白话空间统计二十四:地理加权回归(四)

本来这一章准备直接写(照抄)ArcGIS的帮助文档,写地理加权回归工具的使用……,然后就直接结束地理加权回归的,但是近来收到不少同学的邮件,很多都是掉在了当年虾神挖出的大坑里面,比如写了方法&a…

白话空间统计二十四:地理加权回归(二)

六千多字的大篇……诚意满满啊…… 橘生淮南则为橘,生于淮北则为枳,叶徒相似,其实味不同。所以然者何?水土异也。——《晏子春秋内篇杂下》 水土不服、南北差异,(包括地域歧视)是自古以来的一…

白话空间统计二十四:地理加权回归(三)

本章有数学公式……对数学过敏者慎入…… 前文再续,书接上一回……上一次说到,在改进全局回归的基础上,GWR终于横空出世了,从此空间分析领域终于有了自己专用的回归算法。如果说,空间统计有别于经典统计学的两大特征&…

用ArcGIS做GTWR 时空地理加权回归分析

空间异质性是空间计量回归的重要研究对象,通常采用地理加权回归模型进行分析,而ArcGIS自带工具箱只能支持截面数据的地理加权回归。要分析面板数据则采用地理和时间加权回归( GTWR),该模型是一个局部线性回归模型&…

ArcGIS与地理加权回归【三】

开 工 大 急 原址链接: ArcGIS与地理加权回归【三】https://mp.weixin.qq.com/s/x85EXKImSHio1IZovW9qdA 接着5个月之前.......ArcGIS与地理加权回归GWR【二】以及MGWR软件下载 在ASU下载了样例“关于影响佐治亚州受教育水平”的数据。在上一篇已简单介绍…

白话空间统计二十四:地理加权回归(一)

二十四在人的生活中有举足轻重的地位,一年有二十四个节气,一天有二十四个小时。中国的正史称之为“二十四史”(有人说加清史就二十五了……但是正史这个词,出自清乾隆钦定二十四史,所以一直“正史”这个词,…

ArcGIS Pro中的回归分析浅析(下)地理加权回归工具(GWR)使用小结

内容导读 1)回归概念介绍; 2)探索性回归工具(解释变量的选择)使用; 3)广义线性回归工具(GLR)使用; *加更:广义线性回归工具的补充内容 4)地理加权回归工…

地理加权回归简易总结

地理加权回归 空间统计有别于经典统计学的两大特征:空间相关性和空间异质性,莫兰指数等可以用来量化空间相关性,那么地理加权回归,就可以用来量化空间异质性。 1.地理加权回归的出现: 1)因为地理位置的变…

(学习笔记)地理加权回归(GWR)、多尺度地理加权回归(MGWR)原理与软件实现

1回归 1.1回归 回归分析是最常用的社会科学统计方法。回归用于评估两个或更多要素属性之间的关系。通过回归分析,我们可以对空间关系进行建模、检查和探究;回归分析还可以帮助解释所观测到的空间模式背后的诸多因素,例如为什么有些地区会持…

ArcGIS与地理加权回归GWR【一】

公众号原文 ArcGIS与地理加权回归GWR【一】https://mp.weixin.qq.com/s/fMPYxO3G7ff2192ZQICN-A 开个新坑啊,写一写关于地理加权回归基础的东西(深了我也不会啊),希望也能用通俗的语言来记录一下我以前学习空间统计过程中的理解…

[信息论与编码理论专题-2]:信息与熵

作者主页(文火冰糖的硅基工坊):https://blog.csdn.net/HiWangWenBing 本文网址:https://blog.csdn.net/HiWangWenBing/article/details/118526747 前言:什么是熵 熵的概念是由德国物理学家克劳修斯于1865年所提出。最初是用来描述“能量退化…

熵编码(算术+霍夫曼)编解码基础知识总结

在MPEG的TMC13模型中,对于surface point cloud compression,对block和vertices进行熵编码;对于lidar point cloud compression,需要对量化残差进行算术编码。这里对熵编码相关的知识进行了总结。 熵编码: (1)https://blog.csdn.n…

2 熵与编码

先来尝试编码一副扑克牌,首先考虑花色rank的方式编码,如下图,即第一张牌是0,最后一张是51(一共52张牌) 在一个集合中,假设最大元素为M,那么我们对M编码需要的最小编码长度为log2M&a…

编码原理详解(五)---熵编码(CAVAL)

上一篇我们讲到了ZigZag扫描,经过这一扫描之后,发现原本是4*4的像素矩阵,就变成了一连串的数字,可以说是二维到一维的一个转换吧,而且经过ZigZag扫描后,一连串的数字的最后大部分为0,以及一些1,…

信息熵与编码定理

惊奇度与信息量 定性描述 惊奇度:一个事件的惊奇度是指该事件发生时我们所感到的惊奇程度 信息量:一条信息的信息量是指该信息所含信息的多少。一条信息越是让我们感到惊奇,它所含信息量就越大 对于一个掷骰子的试验,假设E代表掷…

熵编码算法Range encoding工程原理和实现

在压缩算法中,熵编码是其中重要的无损压缩步骤。熵编码算法根据香农定理,对出现概率大的源符号用较少的编码符号进行编码,对概率小的源符号用较多的编码符号进行编码,尽可能地逼近压缩的极限。 目前各类压缩工具使用的熵编码算法主…