概率密度函数曲线及绘制

article/2025/9/14 23:33:08

目录

  • 前言
  • 概率密度函数曲线
  • 几类经典的概率密度函数
  • 两种绘制密度曲线的方法
  • 参考文献

前言

很多数据科学家在做回归模型评估的时候,不仅会去计算模型拟合优度R2,平均绝对误差还会去看测试集的每个样本偏差的分布情况,这个时候就需要用到概率密度函数曲线的知识了,通过绘制概率密度函数曲线图或者直方图可以很直观的看到测试集的所有样本的偏差分布情况。

概率密度函数曲线

我们知道概率是用来度量一件事物发生可能性大小,以抛色子为例,一枚色子是一个正六面体,一共6个面,分别标有1~6,随手一抛,求出现点数5朝上的可能性是多少?因为样本空间数是6,对点数5朝上的有利事件数是1(点数5朝上),因此,出现点数5朝上的概率都是1/6,这是古典概率论的描述,列出其概率分步表如下

点数123456
概率1/61/61/61/61/61/6

画出其概率分布图如下
抛色子概率分布图

对于有限离散的样本空间,我们可以列出概率分布表画出概率分布图,如果,某事件可能取值是某个连续的区间 [ a , b ] [a,b] [a,b],也有其对应的概率值,这种对应关系称为连续型概率函数,记作

p = f ( x ) , x ∈ [ a , b ] p = f(x), x\in[a,b] p=f(x),x[a,b]

其中,p表示自变量取x附近一小段的概率,对应的概率分布函数图像可以用一条连续的曲线来刻画
概率函数曲线
其中,横坐标表示自变量x取值范围,从a到b,可以是a,b中间某一点或某一小段或几个小段的并等,纵坐标表示因变量f(x)取值大小,可以得到

∫ a a f ( x ) d x = 1 \int_{a}^{a} f(x) dx = 1 aaf(x)dx=1

这样,概率函数可以定义为连续型随机变量(X)在某个确定的取值点附近的可能性的函数,可以类比一个质地不均匀的橡皮泥横梗在a,b之间,如果要求这块橡皮泥的质量,那么就要知道从a到b的各处的密度大小,所以概率函数也叫概率密度函数。

几类经典的概率密度函数

  • 正态分布

正态分布是最常见的一种的概率分布,也称为也称为高斯分布,它刻画了随机变量(X)服从一个位置参数为 μ \mu μ 、尺度参数为 σ \sigma σ的概率分布,其概率密度函数为

f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt {2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2π σ1e2σ2(xμ)2

如果随机变量(X)服从一个数学期望为 μ \mu μ,方差为 σ 2 \sigma^2 σ2的正态分布,记作 X ∼ N ( μ , σ 2 ) X\sim N(\mu, \sigma^2) XN(μ,σ2),特别的,当 μ = 0 , σ 2 = 1 \mu =0, \sigma^2 = 1 μ=0,σ2=1时,称为标准正态分布。

  • 泊松分布

泊松分布是一种常见的离散型概率分布,刻画了单位时间内随机事件发生的次数,其概率密度函数为
P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , 2 , ⋯ P(X = k) = \frac{\lambda^k}{k!}e^{-\lambda}, k = 0, 1, 2,\cdots P(X=k)=k!λkeλ,k=0,1,2,

  • 伯努利分布

伯努利分布常用来刻画0-1概率分布,如果随机变量(X)仅有两个可能的结果0和1,此时随机变量(X)取0和1两个值,相应的概率密度函数为
p = { p , X = 1 1 − p , X = 0 p = \begin{cases} p, \quad X= 1\\ \\ 1-p,\quad X=0 \end{cases} p=p,X=11p,X=0

两种绘制密度曲线的方法

某数据科学家通过算法模型获得一组预测值,其想要评估预测值与实际值之间偏差分布情况,可以绘制出偏差的概率分布函数曲线图或者直方图,观测这些偏差分布情况,这里给出两种绘制概率密度曲线的方法

  • matplotlib

matplotlib是python比较原生的绘图模块,适合平时使用习惯,功能强大用法友善,出场率高。

def density(column_1, column_2): #密度函数diff = abs(column_1 - column_2)  #差异率plt.figure(figsize = (6, 4)) #新建画布diff.plot(kind ='kde', label = u'观测值') #label = str(lower) +'~'+ str(upper)plt.grid(alpha = 0.5) #添加网格线plt.xlabel("偏差")plt.ylabel("密度值")plt.legend()plt.title("偏差密度分布图")plt.show()

预览效果

matplotlib
matplotlib绘制概率密度函数曲线主要调用了**kind =‘kde’**的参数,这是一种密度图(Kernel Density Estimate,核密度估计),它是通过模拟计算“可能会产生观测数据的连续情况概率分布的估计”而产生的,因此在调用plot时加上kind='kde’即可生成一张密度图,也就是我们看到的概率密度函数曲线图。

  • seaborn

seaborn也是python中的一个常用的可视化模块,是对matplotlib进行二次封装而成,所以有些方面要比matplotlib更简单更友好

def density(column_1, column_2): #密度函数diff = abs(column_1 - column_2)  #差异率plt.figure(figsize = (6, 4)) #新建画布sb.kdeplot(diff, label = 'density') #密度曲线plt.grid(alpha = 0.5) #添加网格线plt.xlabel("偏差")plt.ylabel("密度值")plt.legend()plt.title("偏差概率密度曲线")plt.show()

预览效果

seaborn

seaborn就进一步把这个观测值连续模拟过程封装成了kdeplot函数,直接调用即可,但从两者的概率函数曲线来看,matplotlib更具有对称性,seaborn细节更丰富,我们可以从seaborn的密度函数曲线看到实际值的数量级和预测值的数量级大致在10000左右,偏差有大有小,但主要集中在-500到2000之间。

参考文献

1,https://baike.baidu.com/item/概率密度函数/5021996?fr=aladdin
2,https://zhuanlan.zhihu.com/p/48140593
3,https://www.zhihu.com/question/263467674
4,http://t.zoukankan.com/Renyi-Fan-p-13282258.html
5,https://blog.csdn.net/helloworld0906/article/details/103214392


http://chatgpt.dhexx.cn/article/RdM02BhC.shtml

相关文章

概率密度图

1、 导入库 import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt import seaborn as sns2、 概率密度图–kdeplot的应用 第一个参数:要绘制的图像数据 第二个参数:shade 是否填充颜色# 获得数据 dataSet pd.read_c…

MATLAB 中RMSE和MAPE的计算方法

RMSE:均方根误差 matlab计算方法: rmse sqrt(mean((YPred-Obverval).^2)); MAPE:平均百分比误差 matlab计算方法: meap mean(abs((observed - predicted)./observed))*100;

均方根误差RMSE(Root Mean Square Error)

MSE(Mean Square Error)均方误差 是真实值与预测值的插值的平方然后求和平均。 RMSE(Root Mean Square Error)均方根误差 均方根误差是预测值与真实值偏差的平方与观测次数n比值的平方根。 衡量的是预测值与真实值之间的偏差&a…

Google Earth Engine(GEE)——计算RMSE

要在 的属性中聚合数据FeatureCollection,请使用 featureCollection.reduceColumns(). 例如,要检查 watersheds 中的区域属性FeatureCollection,此代码计算相对于地球引擎计算区域的均方根误差 (RMSE): 代码: 难点是很多同学不知道如何进行RMSE的函数计算,首先就是求差…

MAE vs RMSE 如何通俗的比较两个度量

平均绝对误差MAE(mean absolute error) 和均方根误差 RMSE(root mean squared error)是衡量变量精度的两个最常用的指标,同时也是机器学习中评价模型的两把重要标尺。那两者之间的差异在哪里?它对我们的生活有什么启示…

RMSE 和 STD 的区别

文章目录 一、概念理解二、公式推导三、总结 一、概念理解 首先看一下两个的概念: RMSE: root mean square error 均方根误差,测绘学科中常称作中误差。它是指一组观测值与真值差的平方和与观测次数比值的平方根,它反映的是观测…

2022-10-31-基于用户的协同过滤推荐算法实现+MAE+RMSE的求解+项目代码+运行结果图

目录 推荐算法学习笔记项目代码运行结果图 推荐算法学习笔记 协同过滤推荐算法测评指标RMSE均方根误差 推荐系统笔记: 一、为什么需要推荐系统 为了解决互联网时代下的信息超载问题。 二、搜索引擎和推荐系统的区别 分类目录,是将著名网站分门别类&…

LPC图像拼接-代码-RMSE问题

LPC的RMSE代码 2021年cvpr-Leveraging Line-point Consistence to Preserve Structures for Wide Parallax Image Stitching(LPC)这篇论文作者给的评价指标代码。 function [ rmse ] RMSE( img, C1, C2, pts1, pts2, mesh_X, mesh_Y, off )X_col lin…

图像处理之图像质量评价指标RMSE(均方根误差)

一、RMSE基本定义 MSE全称为“Root Mean Square Error”,中文意思即为均方根误差,是衡量图像质量的指标之一。计算原理为真实值与预测值的差值的平方然后求和再平均,最后开根号,公式如下: RMSE值越小,说明…

使用RMSE分析数据

一。数据概念和特征性 1. MSE(Mean Square Error)均方误差 是真实值与预测值的插值的平方然后求和平均。是绝对误差的平均值 能更好地反映预测值误差的实际情况. 2. RMSE(Root Mean Square Error)均方根误差 excel计算公式&am…

matlab计算分布模拟的rmse命令,用MATLAB求RMSE

满意答案 金牛座430 推荐于 2018.03.09 采纳率:55% 等级:12 已帮助:7454人 function fRMSE(h1,h2) %RMSE return RMSE(均方根误差) 求两图像的均方根误差 %input must be a imagehandle 输入图像句柄 %image fusion evaluate parameter 图…

matlab中rmse是什么意思,matlab sse和rmse

索引日期:2016-06-30 23:28:26 SSE,MSE,RMSE,R-square(转)_粽子_新浪博客 使用过Matlab的拟合、优化和统计等工具箱的网友,会经常___SSE,MSE,RMSE,R-square(转) SSE越接近于0,说明___ matlab里sse, rsquare, dfe, adjrsquare, r____百度知道 如题,SSE,RMSE,R-square…

rmse的作用

rmse的Emin的作用 链接http://t.csdn.cn/EkbZS RMSE vs MAE RMSE 与 MAE 的量纲相同,但求出结果后我们会发现RMSE比MAE的要大一些。 这是因为RMSE是先对误差进行平方的累加后再开方,它其实是放大了较大误差之间的差距。而MAE反应的就是真实误差。 因此在…

方差、标准差、均方差、均方根值(RMS)、均方根误差(RMSE)

文章目录 方差标准差均方差均方根值(RMS)均方根误差(RMSE) 方差 方差反映的是每个样本值与全体样本值的平均数之差的平方值的平均数。衡量随机变量或者一组数据与其期望的偏离程度。偏离程度越小,说明X的数值越稳定。…

RMSE、MAE和SD的基本概念

RMSE:均方根误差(Root-mean-square error), 观测值与真值偏差的平方和与观测次数m比值的平方根。 假如有2000次观测,即m2000,对于某一次(第i次)观测来说,y值是真实值,而h…

RMSE

RMSE 即 均方根误差 。 均方根误差亦称 标准误差,其定义为 ,i1,2,3,…n。在有限测量次数中,均方根误差常用下式表示:√[∑di^2/n]Re,式中:n为测量次数;di为一…

【转载】MSE(均方误差)、RMSE (均方根误差)、MAE (平均绝对误差)- 机器学习 - 线性回归之模型评估

MSE(均方误差)、RMSE (均方根误差)、MAE (平均绝对误差) 1、MSE(均方误差)(Mean Square Error) MSE是真实值与预测值的差值的平方然后求和平均。 范围[0,…

算法效果评估:均方根误差(RMSE)/ 标准误差

文章目录 1. 评估算法的效果2. 方差(Variance)2.1 总体方差2.1.1 在numpy中计算总体方差2.1.2 在pandas中计算总体方差 2.2 样本方差2.2.1 在numpy中计算样本方差2.2.2 在pandas中计算样本方差 3. 标准差 / 均方差 (Standard Deviation&#…

SQL中的主键

一、什么是主键 数据库主键是指表中一个列或者列的组合,其值能够唯一的标识表中的每一个行。这样的一列或者多列成为表的主键,通过它可以强制表的实体完整性。当创建或者更改表时可以通过定义PRIMARY KEY约束来创建主键,一个表只能有一个主键…

MyBatis主键返回

这篇文章介绍了MyBatis的主键返回方法 一.需求分析 当我们表的主键设置为自增&#xff0c;且插入数据后需要主键id时&#xff0c;就要使用主键返回的方法&#xff0c;来获取当前插入数据的主键。 表如下&#xff1a; 二.主键返回 1.使用selectKey 标签 < selectKey >…