Boxplot(盒图)

article/2025/9/15 4:20:19

今天看到一个程序(matlab版本),里面有个函数叫“boxplot”,没见过,查了些资料,找到一篇不错的文章,贴在这供大家参考。

地址:http://blog.renren.com/share/221363020/2984638910(估计这个链接很容易失效啊)

最近在摆弄数据离散度的时候遇到一种图形,叫做盒图(boxplot)。它对于显示数据的离散的分布情况效果不错。


盒图是在1977年由美国的统计学家约翰·图基(John Tukey)发明的。它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max)。也可以往盒图里面加入平均值(mean)。如上图。下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”。上四分位数到最大值之间建立一条延伸线,这个延伸线成为“胡须(whisker)”。

由于现实数据中总是存在各式各样地“脏数据”,也成为“离群点”,于是为了不因这些少数的离群数据导致整体特征的偏移,将这些离群点单独汇出,而盒图中的胡须的两级修改成最小观测值与最大观测值。这里有个经验,就是最大(最小)观测值设置为与四分位数值间距离为1.5个IQR(中间四分位数极差)。即


  • IQR = Q3-Q1,即上四分位数与下四分位数之间的差,也就是盒子的长度。
  • 最小观测值为min = Q1 - 1.5*IQR,如果存在离群点小于最小观测值,则胡须下限为最小观测值,离群点单独以点汇出。如果没有比最小观测值小的数,则胡须下限为最小值。
  • 最大观测值为max = Q3 -1.5*IQR,如果存在离群点大于最大观测值,则胡须上限为最大观测值,离群点单独以点汇出。如果没有比最大观测值大的数,则胡须上限为最大值。

通过盒图,在分析数据的时候,盒图能够有效地帮助我们识别数据的特征:

  1. 直观地识别数据集中的异常值(查看离群点)。
  2. 判断数据集的数据离散程度和偏向(观察盒子的长度,上下隔间的形状,以及胡须的长度)。

1.箱体的左侧(下)边界代表第一四分位(Q1),而右侧(上)边界代表第三四分位(Q3)。至于箱体部分代表四分位距(IQR),也就是观测值的中间50%值。

2.在箱体中间的线代表的是数据的中位数值。

3.从箱体边缘延伸出去的直线称为触须(whisker).触须(whisker)的向外延伸表示了数据集中的最大和最小(异常点除外)。

4.极端值或异常点(outlier),用星号(*)来标识.如果一个值位于箱体外面(大于Q3或小于Q1),并且距离相应边界大于1.5倍的IQR,那么这个点就被认为是一个异常点(outlier)。

如果你选择通过分组变量(By variable)来分组数据,MINITAB将把图像变成垂直放置,否则图形将水平放置。

使用箱形图来评估数据的对称性:
1.如果数据是明显对称,中位数值线将近似位于四分位距箱体的中间,上下触须(whisker)在长度上将近似相等。

2.如果数据是偏态的,中位数将可能不位于四分位距(IQR)箱体的中间,某一触须(whisker)将可能显著地比另一个长。

在降水数据的箱形图(boxplot)中,中位数位于四分位距(IQR)箱体的中间,上下触须(whisker)长度相等.这表明除了异常点(outlier)星号(*)外,数据是对成的.这很好的说明了异常点(outlier)可能和其它的样本数据不是来自同一个母体(population)。

 

我们结合Minitab帮助就会知道,
假定有数据列C1:1 2 3 4 5 6 7 8,C2:1 2 3 4 5 6 7 8 9,
对于Median(中位数)的位置,这个值等于(N+1)/2,比如C1,共有8个数据,那么中位数就等于(4+5)/2=4.5.由于结果并不是整数,也就是说中位数位于第4和5数数(我们把它们记为X(4)和X(5))之间,那么中位数等于=X(4)+0.5(X(5)-X(4))=4+0.5(5-4)=4.5.

对于Q1(第一四分位)的位置,这个值等于(N+1)/4,这里N表示数据个数,对于C1来说就是(8+1)/4=2.25,由于结果不是整数,也就是说Q1位于第2和3个数(我们把它们记为X(2)和X(3))之间,那么Q1=X(2)+0.25(X(3)-X(2))=2+0.25(3-2)=2.25.

对于Q3(第三四分位)的位置,这个值等于3(N+1)/4,这里N表示数据个数,对于C1来说就是3(8+1)/4=6.75,也就是说Q3位于第6和7个数(我们把它们记为X(6)和X(7))之间,
那么Q3=X(6)+0.75(X(7)-X(6))=6+0.75(7-6)=6.75.

我们可以通过在MINITAB中计算来验证结果

我们新建一个工作表,在C1列输入1 2 3 4 5 6 7 8
在C2列输入1 2 3 4 5 6 7 8 9,
我们通过菜单Stat>Basic Statistics>Display Descriptive Statistics,在Variables处输入c1 c2,然后点击Statistics按钮,只选中First quartile,Median和Third quartile统计指标,点击OK.就会在对话(session)窗口看到结果.

Variable Q1 Median Q3
C1 2.250 4.500 6.750
C2 2.500 5.000 7.500

使用箱形图(也称为箱体-触须图)来评估和比较样本分布。下面的图形图解了箱形图默认的组成部分。

异常点(Outlier)-某个异常大或小的观测点。任何超过触须的值就是异常点。

默认情况下,箱体的顶端是第三四分位(Q3)-75%的数据值小于或等于这个值。

默认情况下,箱体的底部是第一四分位(Q1)-25%的数据值小于或等于这个值。

默认情况下,下部的触须会伸展到最小值,但一定位于下限范围内。
下限(Lower limit)=Q1-1.5(Q3-Q1)

中位数-数据的中间点。一半的观测值小于或等于它。

默认情况下,上部的触须会伸展到最大值,但一定位于上限范围内。
上限(Upper limit)=Q3+1.5(Q3-Q1)


http://chatgpt.dhexx.cn/article/A3TPx3vV.shtml

相关文章

R语言箱型图 boxplot

boxplot简介 boxplot称为箱型图,又叫做盒状图,胡须图。是用来表示数值类型数据分布状况的统计图。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。 四分位数百度百科 第一四分位数 (Q1),又称“较小四分位数”,等于…

matlab: 盒图---boxplot

盒图(boxplot) 盒图是在1977年由美国的统计学家约翰图基(John Tukey)发明的。它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max)。也可以往盒图里面加入平均值(mean)。如上图…

(转载)箱线图boxplot解释与python绘制

原文链接 箱线图boxplot - 喜欢吃面的猪猪 - 博客园 箱线图boxplot——展示数据的分布 图表作用: 1.反映一组数据的分布特征,如:分布是否对称,是否存在离群点 2.对多组数据的分布特征进行比较 3.如果只有一个定量变量,很少用箱…

盒图(boxplot)

盒图(boxplot) 盒图是在1977年由美国的统计学家约翰图基(John Tukey)发明的。它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max)。也可以往盒图里面加入平均值(mean)。如上图…

python/Matplotlib 中绘制多箱线图(boxplot)

两种绘制方式,不可混淆 一、DataFrame绘制单坐标轴 两种都试一下 可能我的anaconda有点问题 2代码不好用 下次再完善 1、anaconda import numpy as np import pandas as pd import matplotlib.pyplot as plt from pylab import * rcParams[axes.unic…

【R语言】24种R语言作图新手入门之boxplot箱线图(二)

目录 一、前言二、初阶画图2.1 基础语法2.2 简单箱线图2.3 带点箱线图2.4 给线条“上色”2.5 填充“上色”2.6 修改图形顺序 三、进阶画图3.1 排序箱线图3.2 差异箱线图3.3 多基因差异箱线图3.4 多组差异箱线图3.5 多基因多组差异箱线图 四、讨论 一、前言 箱线图一般用于可视…

sns.boxplot()简单用法

sns.boxplot() 箱形图(Box-plot): 又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。它能显示出一组数据的最大值、最小值、中位数及上下四分位数 #参数如下: seaborn.boxplot(xNone, yN…

Matplotlib - 箱线图、箱型图 boxplot () 所有用法详解

目录 基本用法 水平箱线图,显示均值 改变箱线图的形状(箱体的形状notch、异常值的形状sym) 改变箱线图的颜色(箱体边框的颜色、箱体填充色) 相较散点图和折线图,柱状图、饼图、箱线图(箱…

matlab之绘制箱线图函数boxplot

一、功能 用箱线图可视化汇总统计量 二、语法 1.boxplot(x) 创建 x 中数据的箱线图。如果 x 是向量,boxplot 绘制一个箱子。如果 x 是矩阵,boxplot 为 x 的每列绘制一个箱子。 在每个箱子上,中心标记表示中位数,箱子的底边和…

超详细Seaborn绘图 ——(二)boxplot boxenplot

箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。 它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。箱形图最大的优点就是不受异常值的影响(异常值也…

matplotlib之pyplot模块——绘制箱线图(盒须图)boxplot()(二)演示外观参数、返回值

当前有效matplotlib版本为:3.4.1。 概述 boxplot()函数的作用是绘制箱线图(箱线图、盒须图、箱图)。 箱线图是由一个箱体和一对箱须所组成的统计图形。箱体是由第一四分位数、中位数(第二四分位数)和第三四分位数所…

matplotlib之pyplot模块——绘制箱线图(盒须图)boxplot()(一)基本参数

当前有效matplotlib版本为:3.4.1。 概述 boxplot()函数的作用是绘制箱线图(箱线图、盒须图、箱图)。 箱形图(boxplot)又称盒须图或箱线图,是一种用来显示某一组数据分散情况的统计图,因形状如…

matplotlib.pyplot.boxplot()绘制箱型图

目录 一、matplotlib.pyplot.boxplot()语法 二、绘制箱型图 ①绘制简单箱型图 ②各个参数绘制箱型图 (1)notch参数(bool值,是否凹口的形式展现箱线图,默认值False非凹口) (2)sy…

Matlab中boxplot函数的用法

Boxplot函数: boxplot(x)函数:绘制数据X的盒须图。如果X为矩阵,则对每一列分别进行绘制。盒须图用于表现数据统计信息,由“盒”与“须”组成,“盒”中有一条直线,表示样本的中位数&a…

Matplotlib——箱线图boxplot()函数

箱线图一般用来展现数据的分布,如上下四分位值、中位数等,也可以直观地展示异常点。Matplotlib提供了boxplot()函数绘制箱线图。 import matplotlib.pyplot as plt_ plt.boxplot(range(10)) # 10个数,0-9plt.show()箱线图虽然看起来简单&a…

python绘制箱线图boxplot()

最近在处理数据时,需要使用python绘制箱线图。 1. 箱线图 箱线图(Box-plot)又称为盒式图或箱型图,是一种用来显示一组数据分散情况的统计图,它能显示一组数据的上界、下界、中位数、上下四分位数以及异常值等。 四分…

boxplot

1. 简介 箱形图,又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。箱形图于1977年由美国著名统计学家约翰图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、上下四分位数及…

Box plot (箱线图) 解读以及Python实现

因为最近论文有信息量很大的结果需要展示,如果用常用的折线图或者柱状图很难集中且全面的展示实验结果,和老板讨论之后了解到--箱线图这种神奇的图形展示方式。边学边用~记录在这里~也给有论文写作需要的小伙伴们一个参考~ 1. 什么是箱线图? 箱形图(Box-plot)又称为盒须…

箱线图(Boxplot)也称箱须图(Box-whisker Plot)

简述: 箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法。它也可以粗略地看出数据是否具有有…

plt.boxplot()函数绘制箱图、常用方法及含义详解

1. 箱图含义 箱图是一中用于统计数据分布的统计图,也可以粗略地看出数据是否具有对称性,分布的分散程度等信息。箱图中的信息含义如下: 最下方的横线表示最小值最上方的横线表示最大值黑色空心圆圈表示异常值黑色实心圆圈表示极端值箱子由…