利用Excel的LINEST计算线性拟合的斜率和截距的不确定性

article/2025/8/18 22:13:19

目录

线性拟合的斜率和截距的不确定性

  利用熟悉的Excel绘图功能,可以根据距离-高程散点数据拟合线性趋势线,如图1显示(河流阶地地形数据)。趋势线按如下方式插入:右击图表上的数据,添加趋势线,在图表上显示方程和 R 2 R^2 R2值。然而,趋势线函数并没有给出与线性拟合的斜率和截距相关的方差值。获得斜率和截距选定的置信区间(例如95%置信区间)对于精确测量断层变形量与滑动速率十分重要。因此,我们需要计算斜率与截距的方差值。Excel的LINESET函数提供这种统计测量。下文介绍了使用LINEST的基本步骤与原理(Morrison, 2014)。

图1. 拔河高度随距离的函数。利用Excel的趋势线特性对数据进行拟合;直线方程和拟合系数R2值如图所示。

Excel数组函数LINEST

  使用MS Excel的 LINEST函数 进行最小二乘计算。对于图1所示数据,应用LINEST步骤如下:

  1. 选择一个5行2列的空白范围(总共10个单元格)来存放函数的输出值;我们选择B1:C5,如图2所示。
  2. 点击公式,然后 “插入函数”。
  3. 在 “插入函数” 窗口中,类别选择 “Statistical”,选择函数 “LINEST”,然后单击确定
  4. 选择y和x数据范围;对于Const,输入TRUE(TRUE=计算非0截距);对于Stats,也选择TRUE (TRUE=返回误差统计值);单击OK
  5. 通过选择输入字段中的公式并按键盘 CTRL-SHIFT-ENTER,指定LINEST是一个数组函数。选定的10个输出单元格将填充与图2和图3中标记的匹配相关的统计信息,下文进行讨论。
    在这里插入图片描述
    图2. 按照文本中的说明,填充LINEST的函数参数,如图所示。点击OK之后,还有最后一个重要的步骤:突出显示函数调用=LINEST(B9:B1493, A9:A1493, true, true)并同时按CTRL-SHIFT-ENTER



    图3. 在指定LINEST是一个数组函数之后,10个单元格B1:C5显示误差统计信息。这些统计值的含义见文本。

LINEST结果的含义

  LINEST执行最小二乘运算求解最佳拟合直线的斜率和截距(图4,Wikipedia, 2014b)。最佳线性拟合对应拟合直线和数据之间的平方和误差值最小。通常,最小二乘计算中,假设x值没有误差(图4),详细推导见文献(Montgomery and Runger, 2011; McCuen, 1985),本文仅作简短讨论。
在这里插入图片描述
图4. 因变量y的平均值是参数(斜率和截距)和变量x的线性组合。通常最小二乘算法假设数据的x值不存在误差,响应变量y的残差计算为 y i − y ^ i y_i-\widehat{y}_i yiy i,即点与直线之间的垂直距离(左图)。若x中的误差也存在,点和直线之间的最短距离是垂直距离,如右图所示。各因变量 y i y_i yi的误差是互不相关的,即每个 y i y_i yi之间不存在协方差。

  值(xi, yi)是n个数据对的集合,我们希望拟合一条线; y ˉ ≡ ( ∑ i = 1 n y i ) / n \bar{y}≡(\sum_{i=1}^n y_i )/n yˉ(i=1nyi)/n是yi的均值,并且线性拟合是 y ^ ( x ) = m ^ x + b ^ \widehat{y}(x)=\widehat{m}x+\widehat{b} y (x)=m x+b ,为了解释Excel返回的误差统计值,首先定义三个平方和: S S y y SS_{yy} SSyy, S S E SS_E SSE, 和 S S R SS_R SSR

总平方和   S S T SS_T SST= S S y y SS_{yy} SSyy= ∑ i = 1 n ( y i − y ˉ ) 2 \sum\limits_{i=1}^n(y_i-\bar{y})^2 i=1n(yiyˉ)2    (1)
误差平方和   S S E SS_E SSE ∑ i = 1 n ( y i − y ^ ) 2 \sum\limits_{i=1}^n(y_i-\widehat{y})^2 i=1n(yiy )2    (2)
回归平方和   S S R SS_R SSR S S T − S S E SS_T-SS_E SSTSSE    (3)

   S S y y SS_{yy} SSyy是数据 y i y_i yi与均值 y ^ \widehat{y} y 之间误差平方和; S S E SS_E SSE是数据 y i y_i yi和拟合值 y ^ ( x ) \widehat{y}(x) y (x)= m ^ x + b ^ \widehat{m}x+\widehat{b} m x+b 之间的误差平方和; S S R SS_R SSR是二者之差,代表总平方和中可以用线性模型值解释的部分。在最小二乘计算中,目标是找到最小化的 S S E SS_E SSE,计算过程还涉及到两个平方和公式:
S S x x SS_{xx} SSxx ∑ i = 1 n ( x i − x ˉ ) 2 \sum\limits_{i=1}^n(x_i-\bar{x})^2 i=1n(xixˉ)2   (4)
S S x y SS_{xy} SSxy ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \sum\limits_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) i=1n(xixˉ)(yiyˉ)   (5)
其中 x ˉ \bar{x} xˉ ( ∑ i = 1 n x i ) / n (\sum_{i=1}^nx_i )/n (i=1nxi)/n x i x_i xi的平均值。

将n个数据点( x i x_i xi, y i y_i yi)拟合的线性模型:
y ^ ( x ) = m ^ x + b ^ \widehat{y}(x)=\widehat{m}x+\widehat{b} y (x)=m x+b    (6)

LINEST输出的10个统计参数含义如下:

  1. m,斜率的最小二乘估计值——通常为最佳拟合直线的斜率。
    m ^ \widehat{m} m = ( n ∑ i = 1 n x i y i − ( ∑ i = 1 n x i ) ( ∑ i = 1 n y i ) ( n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 ) \frac{(n\sum_{i=1}^nx_i y_i-(\sum_{i=1}^nx_i)(\sum_{i=1}^ny_i)}{(n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)^2 )} (ni=1nxi2(i=1nxi)2)(ni=1nxiyi(i=1nxi)(i=1nyi)= ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − y ˉ ) 2 \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{y})^2} i=1n(xiyˉ)2i=1n(xixˉ)(yiyˉ)= S S x y S S x x \frac{SS_{xy}}{SS_{xx}} SSxxSSxy   (7)

  2. b,截距的最小二乘估计值——通常为最佳拟合直线的截距。
    b ^ \widehat{b} b = ( ∑ i = 1 n x i ) 2 ( ∑ i = 1 n y i ) − ( ∑ i = 1 n x i y i ) ( ∑ i = 1 n x i ) ( n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 ) \frac{(\sum_{i=1}^nx_i )^2 (\sum_{i=1}^ny_i)-(\sum_{i=1}^nx_iy_i)(\sum_{i=1}^nx_i)}{(n\sum_{i=1}^nx_i^2 -(\sum_{i=1}^nx_i)^2)} (ni=1nxi2(i=1nxi)2)(i=1nxi)2(i=1nyi)(i=1nxiyi)(i=1nxi)= y ˉ − m ^ x ˉ \bar{y}-\widehat{m}\bar{x} yˉm xˉ   (8)

  3. n-p, 最小二乘回归自由度。有n个数据点,p = 2个回归参数(m和b)。在进行最小二乘计算之前,有n个自由度,计算斜率和截距时使用了两个自由度,在以后的计算中留下n-2个自由度。

  4. S y , x S_{y,x} Sy,x,y(x)的标准偏差(y(x)方差 S y , x 2 S_{y,x}^2 Sy,x2的平方根):
    S y , x 2 S_{y,x}^2 Sy,x2= ( 1 n − 2 ) ∑ i = 1 n ( y i − y ^ ) 2 (\frac{1}{n-2})\sum_{i=1}^n(y_i-\widehat{y})^2 (n21)i=1n(yiy )2= S S E n − 2 \frac{SS_E}{n-2} n2SSE   (9)

  5. S m S_m Sm,坡度 m ^ \widehat{m} m 标准差( S m 2 S_m^2 Sm2的平方根,m ̂的方差)。
    S m 2 S_m^2 Sm2= S ( y , x ) 2 S S x x \frac{S_(y,x)^2}{SS_{xx}} SSxxS(y,x)2   (10)

    其中 S y , x 2 S_{y,x}^2 Sy,x2是y(x)的方差(见方程9)。为了求得计算的\widehat{m}和\widehat{b}的置信区间,我们采用t分布和n-2自由度(Montgomery and Runger, 2011)。对于自由度大于或等于6, t α / 2 , n − 2 ≥ 6 ≈ 2 t_{α/2,n-2≥6}≈2 tα/2,n262(α=0.05,误差为一个有效数字)。

    坡度95%置信区间(α=0.05): m ^ ± t 0.025 , n − 2 S m \widehat{m}±t_{0.025,n-2}S_m m ±t0.025,n2Sm (11)
              ≅ m ^ ± 2 S m \widehat{m}±2S_m m ±2Sm, ( n − 2 ) ≥ 6 (n-2)≥6 (n2)6  (12)

  6. S b S_b Sb,截距b ̂的标准差( S b 2 S_b^2 Sb2的平方根,\widehat{b}的方差)。\widehat{b}的置信区间由 S b S_b Sb和具有n-2自由度的t分布获得。
    S b 2 S_b^2 Sb2= S y , x 2 ∑ i = 1 n x i 2 n S S x x \frac{S_{y,x}^2 \sum_{i=1}^nx_i^2}{nSS_{xx}} nSSxxSy,x2i=1nxi2= S y , x 2 ( 1 n + x ˉ 2 S S ) S_{y,x}^2(\frac1n+\frac{\bar{x}^2}{SS}) Sy,x2(n1+SSxˉ2)   (13)

    截距95%置信区间(α=0.05): b ^ ± t 0.025 , n − 2 S b \widehat{b}±t_{0.025,n-2}S_b b ±t0.025,n2Sb (14)
              ≅ m ^ ± 2 S b \widehat{m}±2S_b m ±2Sb, ( n − 2 ) ≥ 6 (n-2)≥6 (n2)6  (15)

  7. 误差的残差平方和 S S E SS_E SSE——数据 y i y_i yi和线性模拟值 y ^ i \widehat{y}_i y i之差的平方和;一种线性模型y数据的误差度量。当 S S E SS_E SSE→0时,所有的总误差 S S T SS_T SST都可以用线性模型来解释,可以认为线性模型是一个很好的拟合(方程2)。
    S S E SS_E SSE ∑ i = 1 n ( y i − y ^ ) 2 \sum\limits_{i=1}^n(y_i-\widehat{y})^2 i=1n(yiy )2    (2)

  8. 回归平方和 S S R SS_R SSR——总平方和中可以用线性模型值解释的部分(方程3):
    S S R SS_R SSR S S T − S S E SS_T-SS_E SSTSSE    (3)

  9. R 2 R^2 R2决定系数——线性模型解释的 y i y_i yi变量分数:
    R 2 R^2 R2= e x p l a i n e d e r r o r t o t a l e r r o r \frac{explained error}{total error} totalerrorexplainederror= S S R S S T \frac{SS_R}{SS_T} SSTSSR= S S T − S S E S S T \frac{SS_T-SS_E}{SS_T} SSTSSTSSE

    当线性模型拟合很好时,数据 y i y_i yi与模型之间的偏差很小, S S E SS_E SSE→0, R 2 R^2 R2=1。因此,决定系数是一种拟合优度的度量,该值越接近1,表明拟合的越好。但是,当拟合模型是一条水平线时,即 y ^ \widehat{y} y = y ^ \widehat{y} y ,则 S S T SS_T SST= S S E SS_E SSE,此时 R 2 R^2 R2为0。

  10. Fisher F 统计——用于回归测试,以查看使用两个参数(斜率和截距)是否优于使用一个参数( y ^ \widehat{y} y = y ^ \widehat{y} y ;即坡度m为0,y=截距b)。回归统计F计算为两个量的比率,即模型能够解释的方差与模型不能解释的方差的比率:
    F= ( ′ l a c k o f f i t ′ s u m o f s q u a r e s / v 1 ) ′ p u r e e r r o r ′ s u m o f s q u a r e s ) / v 2 (\frac{'lack of fit' sum of squares/v_1)}{'pure error' sum of squares)/v_2} (pureerrorsumofsquares)/v2lackoffitsumofsquares/v1)= S S R / v 1 S S T / v 2 \frac{SS_R/v_1}{SS_T/v_2} SST/v2SSR/v1= S S T − S S E S y , x 2 \frac{SS_T-SS_E}{S_{y,x}^2} Sy,x2SSTSSE

    其中 v 1 v_1 v1=1和 v 1 v_1 v1=n-2是每个变量的自由度。这个比率是一个具有F( v 1 v_1 v1, v 2 v_2 v2)分布且自由度为 v 1 v_1 v1=1和 v 1 v_1 v1=n-2的随机变量的计算值。如果F> F c r i t F_crit Fcrit,使用线性模型 y ^ = m ^ x + b ^ \widehat{y}=\widehat{m}x+\widehat{b} y =m x+b 比使用模型 y ^ \widehat{y} y = y ˉ \bar{y} yˉ合理(在(1-α)%置信区间)。 F c r i t F_crit Fcrit对应于具有期望的α置信水平的F( v 1 v_1 v1, v 2 v_2 v2)分布的累积分布函数,自由度为 v 1 v_1 v1 v 2 v_2 v2

模型预测 y ^ \widehat{y} y = m x + b =mx+b =mx+b

  在方程12和15中,我们给出了两个模型参数 m ^ \widehat{m} m b ^ \widehat{b} b 的95%置信区间。当模型参数 m ^ \widehat{m} m b ^ \widehat{b} b 直接用于后续的计算时,这些置信区间适用于误差传播计算。
  当模型方程用于在选定的x值处估计y值时,具有不同的误差范围。这里讨论最常见的情况。
  用选定的x值估计最佳y值。任意点上y的最佳值是该点上y所有可能观测值的均值。设x的取值为 x p x_p xp, x在该点的最佳估计值为 y p y_p yp,由下式给出:
y p = m ^ x p + b ^ y_p=\widehat{m}x_p+\widehat{b} yp=m xp+b    (18)
y p y_p yp的方差由方程18和误差传播计算而来,斜率和截距不是独立的变量增加了其复杂性,因此 m ^ \widehat{m} m b ^ \widehat{b} b 之间的协方差非零。y在 x p x_p xp处的均值方差为:
  y在 x p x_p xp的均值方差: S y , x 2 ( 1 n + ( x p − x ˉ ) 2 S S x x ) S_{y,x}^2(\frac1n+\frac{(x_p-\bar{x})^2}{SS_{xx}}) Sy,x2(n1+SSxx(xpxˉ)2)  (19)
y在y_p处的均值置信区间根据符合t分布且自由度为(n-2)的标准差得到(Montgomery and Runger, 2011):
y在 x p x_p xp的均值置信区间:
( m ^ x p + b ^ ) ± t ( α / 2 , n − 2 ≥ 6 ) s y , x 1 n + ( x p − x ˉ ) 2 S S x x (\widehat{m}x_p+\widehat{b})±t_{(α/2,n-2≥6)} s_{y,x}\sqrt{{\frac1n}+\frac{(x_p-\bar{x})^2}{SS_{xx}}} (m xp+b )±t(α/2,n26)sy,xn1+SSxx(xpxˉ)2   (20)

方程20是基于最小二乘法最佳拟合得到的y值误差的合理区间(图5)。由此可知。误差条在回归( x ˉ \bar{x} xˉ, y ˉ \bar{y} yˉ)的中心点附近最窄,并向两端呈扇形展开。这反映了这样一个事实,即斜率的不确定性使得x范围两端的值不如中心附近的点确定。

在这里插入图片描述
图5. 图1中数据的拟合线(红色)与95%置信区间。外层的一对线(绿色和紫色)反映了在每个x值处y新值的95%预测区间。

References

[1]: D. C. Montgomery and G. C. Runger., 2011. Applied Statistics and Probability for Engineers, 5th edition (Wiley, New York).
[2]: Morrison, F. A., 2014. Obtaining uncertainty measures on slope and intercept of a least squares fit with Excel’s LINEST. Houghton, MI: Department of Chemical Engineering, Michigan Technological University. Retrieved August, 2014, 6: 2015.
[3]: R. H. McCuen., 1985. Statistical Methods for Engineers (Prentice Hall, Englewood Cliffs, NJ).
[4]: Wikipedia., 2014. “Ordinary Least Squares,” Wikipedia, the Free Encyclopedia, en.wikipedia.org/wiki/Ordinary_least_squares, accessed 14 July 2014.


http://chatgpt.dhexx.cn/article/FMBSplVD.shtml

相关文章

机器学习算法——Kmeans

1.k-mean算法的原理 1、选取K个点做为初始聚集的簇心 2、分别计算每个样本点到K个簇核心的距离(这里的距离一般取欧氏距离或余弦距离),找到离该点最近的簇核心,将它归属到对应的簇 3、所有点都归属到簇之后,M个点就分为了K个簇…

【时序】Reformer:局部敏感哈希(LSH)实现高效 Transformer 论文笔记

论文名称:Reformer: The Efficient Transformer 论文下载:https://arxiv.org/abs/2001.04451 论文年份:ICLR2020 论文被引:706(2020/04/20) 论文代码:https://github.com/google/trax/tree/mast…

损失函数MSE和MAE的区别以及如何选择

1、均方误差(L2损失) 均方误差(MSE)是最常用的回归损失函数,计算方法是求预测值与真实值之间距离的平方和,公式如下: M S E 1 m ∑ m i 1 ( y i − y ^ i ) 2 MSE\frac{1}{m} \sum_{m}^{i1}\left(y_{i}-\hat{y}_{i}…

连载|GBDT如何进行回归和分类

GBDT 在前几年的机器学习竞赛以及工作中,人们使用着各种传统算法进行调参取得性能的提升,突然有一天杀出了一种名为GBDT的算法,改变了当前的格局,该算法在不同的场景中总是能够产生很好的效果,本文就让我们来了解一下…

最小二乘法多项式曲线拟合数学原理及其C++实现

目录 0 前言1 最小二乘法概述2 最小二乘法求解多项式曲线系数向量的数学推导2.1 代数法2.2 矩阵法 3 代码实现4 总结参考 0 前言 自动驾驶开发中经常涉及到多项式曲线拟合,本文详细描述了使用最小二乘法进行多项式曲线拟合的数学原理,通过样本集构造范德…

GB和GBDT 算法流程及分析

1、优化模型的两种策略: 1)基于残差的方法 残差其实就是真实值和预测值之间的差值,在学习的过程中,首先学习一颗回归树,然后将“真实值-预测值”得到残差,再把残差作为一个学习目标,学习下一棵回…

机器学习和深度学习性能指标

这里写目录标题 1、声明2、机器学习评估性能指标2.1、回归(Regression)算法指标2.1.1、平均绝对误差 MAE2.1.2、均方误差 MSE2.1.3、均方根误差 RMSE2.1.4、决定系数R^22.1.5、解决评估指标鲁棒性问题 2.2、分类(Classification)算…

多模态信息融合研究

1、主要研究方向 多模态学习可以划分为以下五个研究方向: 多模态表示学习 Multimodal Representation:主要研究如何将多模态的数据所蕴含的语义信息通过embedding的方式实现向量化,便于后续的计算; 模态转化 Translation&#…

【时序】DeepGLO:可以学习全局依赖和局部信息的多时间序列预测模型

论文名称:Think Globally, Act Locally: A Deep Neural Network Approach to High-Dimensional Time Series Forecasting 论文下载:https://arxiv.org/abs/1905.03806 论文年份:NeurIPS 2019 论文被引:134(2022/04/21&…

独立性检验(卡方检验)

独立性检验(Test for Independence)是根据频数来判断两类因子是彼此独立还是彼此相关的一种假设检验。假如对某一个数据集有X(值域为x1, x2)跟Y(值域为y1, y2)变量,下面是他们的频数表: x1 x2 汇总 y1 …

列联表分析——独立性检验(卡方检验)

第一步:建立原假设和备择假设 H0:两变量相不立;H1:u两变量相互b独立 第二步:计算自由度和理论频数 第三步:计算卡方统计量 实际观察次数与理论次数之差的平方再除以理论次数得到的统计量近似服从卡方分布…

列联表分析-独立性检验

用SPSS分析甲乙丙三名推销员的对ABC三类产品的销售数据是否独立 原假设:他们之间相互独立 数据如下: 导入数据 将销量进行加权 点击分析-描述统计–交叉表; 结果 当表格是2X2的时候得到结果如下:

第15章卡方检验:拟合优度和独立性检验

第1章统计学入门 第2章频数分布略 第3章集中趋势的测量 第4章变异性 第5章分数的位置及标准化分布 第6章概率和正态分布 第7章概率和样本:样本均值的分布 第8章假设检验介绍 第9章t检验介绍 第10章两个独立样本的t检验 第11章两个相关样本的t检验…

独立样本t检验、方差齐性检验

什么是独立样本t检验? t检验是比较两组数据之间的差异,有无统计学意义;t检验的前提是,两组数据来自正态分布的群体,数据的方差齐,满足独立性。 独立样本t检验(各实验处理组之间毫无相关存在&am…

卡方列联表的独立性检验

1.列联表是按两个或多个特征分类的频数数据,一般以表格形式组成。 2.判断两个或多个属性之间有无关联,即判别属性之间是否独立。 3.检验步骤 建立原假设 H0: 两属性相互独立 H1: 两属性之间不独立 计算自由度 计算卡方统计量 拒绝域 对照卡方分布…

SPSS学习(五)独立样本t检验

参考书籍:《SPSS其实很简单》 应用场景:当对两个独立分组中感兴趣的一个连续因变量的均值进行比较时使用。 目标:检验两个组别中关于某些感兴趣的因变量的均值是否存在显著差异 数据要求:具有两个不同组别的一个自变量&#xf…

统计之 - 独立性检验

独立性检验(Testfor Independence)是根据频数来判断两类因子是彼此独立还是彼此相关的一种假设检验。假如对某一个数据集有X(值域为x1,x2)跟Y(值域为y1,y2)变量,下面是他们的频数表: x1x2汇总y1ababy2cdcd汇…

SAS学习第9章:卡方检验之适合性检验与独立性检验

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时&#xf…

入门必学 | R语言数据的独立性,正态性及方差齐性检验

参数分析的三大前提检验 检验数据独立性的方法Chisq检验Fisher检验Cochran-Mantel-Haenszel检验 检验数据正态性的方法shapiro.test函数qqnorm函数ksnormTest函数lillie.test函数ks.test函数 方差齐性检验的方法bartlett.test()检验leveneTest ()检验 完整代码 参数检验-显著性…

基于卡方的独立性检验

本文给出基于两种统计量的假设检验,来检验变量间是否独立--χ2与秩和。χ2越小说明越独立 假设检验 假设检验(Test of Hypothesis)又称为显著性检验(Test of Ststistical Significance)。 在抽样研究中,由于…