正态分布,二维正态分布,卡方分布,学生t分布——概率分布学习 python

article/2025/10/9 6:19:49

目录

基本概念

概率密度函数(PDF: Probability Density Function)

累积分布函数(CDF: Cumulative Distribution Function)

核密度估计((kernel density estimation)

1.正态分布

概率密度函数(pdf)

正态分布累积分布函数(CDF)

正态分布核密度估计(kde)

正态分布四则运算

二维正态分布(逐渐补充)

马氏距离

2.卡方分布

概率密度函数(pdf):

 卡方分布表:

卡方分布相关计算

生成卡方分布随机数

3.学生t分布

概率密度函数(pdf):


基本概念

概率密度函数(PDF: Probability Density Function)

连续随机变量的概率分布特性。

累积分布函数(CDF: Cumulative Distribution Function)

在x点左侧事件发生的总和。

CDF特性:

①因为累计分布函数是计算x点左侧的点的数量,所以累计分布函数CDF是单调递增的。

②所有的CDF中,在x趋近-∞时,CDF趋近于0,当x趋近+∞时,CDF趋近于1。

③对于给定的数据集,CDF是唯一的

核密度估计((kernel density estimation)

核密度估计(kernel density estimation,KDE)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,通过核密度估计图可以比较直观的看出数据样本本身的分布特征。

scipy中的stats.gaussian_kde可以计算高斯核函数的密度函数,而且提供了直接计算区间的累计密度函数,integrate_box_1d(low=-np.Inf, high=x)。

1.正态分布

表示为:N\sim \left ( \mu ,\sigma^2 \right ),其中期望为μ,方差为\sigma^2

概率密度函数(pdf)

f(x)=\frac{1}{\sigma \sqrt{2\pi } } e^{-\frac{(x-\mu)^2}{2\sigma^2} }

python画图效果及代码(包含随机数生成):

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.mlab as mlab
import matplotlib.cm as cm
import math
import scipy.stats as stats
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号################################                正态分布             ###########################
# 根据均值、标准差,求指定范围的正态分布概率值
def normfun(x, mu, sigma):pdf = np.exp(-((x - mu)**2)/(2*sigma**2)) / (sigma * np.sqrt(2*np.pi))return pdf                 
np.random.seed(0)   ##  定义一个随机数种子
result = np.random.normal(loc=10, scale=16, size=1000) # 均值为10,标准差为16
##           !!!强调,以上参数中scale为标准差(方差的根号),不是方差,
# 设定 x,y 轴,载入刚才的正态分布函数
x = np.arange(min(result), max(result), 0.1)
y = normfun(x, result.mean(), result.std())
plt.plot(x, y) # 这里画出理论的正态分布概率曲线
plt.hist(result, bins=20, rwidth=0.8, density=True)     ##  柱状图
plt.title('distribution')
plt.xlabel('temperature')
plt.ylabel('probability')
plt.show()

正态分布累积分布函数(CDF)

################################                累积分布函数cdf             ###########################
#计算正态概率密度函数在x处的值
def norm_dist_prob(theta):y = stats.norm.pdf(theta, loc=np.mean(data), scale=np.std(data))return y#计算正态分布累积概率值
def norm_dist_cdf(theta):y = stats.norm.cdf(theta,loc=np.mean(data), scale=np.std(data))return y
##  数据生成
data = np.random.normal(loc=0.0, scale=10, size=1000)x = np.linspace(stats.norm.ppf(0.01,loc=np.mean(data), scale=np.std(data)),stats.norm.ppf(0.99,loc=np.mean(data), scale=np.std(data)), len(data))  #linspace() 函数返回指定间隔内均匀间隔数字的 ndarray。y1=norm_dist_prob(x)
y2=norm_dist_cdf(x)
plt.plot(x, y1,'g', label='pdf')
plt.plot(x, y2,'r', label='cdf1')
#或
sns.kdeplot(data,cumulative=True, label='cdf2')
plt.legend()

正态分布核密度估计(kde)

################################                核密度估计             ###########################
##  数据生成
data = np.random.normal(loc=0.0, scale=10, size=1000)
##  本程序是根据数据进行概率密度估计
density = stats.gaussian_kde(data)   #, bw_method=None, weights=[i[4] for i in data1]
density.covariance_factor = lambda : .25    #   lambda : .25
density._compute_covariance()
density.set_bandwidth(bw_method='silverman')        ##  调用set_bandwidth 后计算的新带宽用于估计密度的后续评估。可选‘scott’, ‘silverman’
xs = np.linspace(min(data), max(data), 200)
fig, ax = plt.subplots()
ax.plot(xs, density(xs), 'r')
ax.fill_between(xs, density(xs), color="r", alpha=0.1)
ax.hist(data, bins=30, rwidth=0.96, density =True, alpha=0.6,color = 'steelblue', edgecolor = 'w', label = 'dimensional histogram statistic ')##  或者用seaborn
fig, ax = plt.subplots()
sns.distplot(data, hist=True, kde=True, rug=True, bins=20, ax=ax)
#   通过hist和kde参数调节是否显示直方图及核密度估计(默认hist,kde均为True)
#   bins:int或list,控制直方图的划分
#   rug:控制是否生成观测数值的小细条
#   ax = sns.distplot(x, rug=True, rug_kws={"color": "g"},
#        ...                   kde_kws={"color": "k", "lw": 3, "label": "KDE"},
#        ...                   hist_kws={"histtype": "step", "linewidth": 3,
#        ...                             "alpha": 1, "color": "g"})fig, ax = plt.subplots()

正态分布四则运算

 两个相互独立的正态分布分别满足

X\sim N(\mu_1,\sigma_1^2), Y\sim N(\mu_2,\sigma_2^2)

则:

E(X+Y)=EX+EY=\mu_1+\mu_2

D(X+Y)=DX+DY=\sigma_1^2+\sigma_2^2

E(XY)=\frac{\sigma_1^2\mu_2+\sigma_2^2\mu_1}{\sigma_1^2+\sigma_2^2}

D(XY)=\frac{\sigma_1^2\sigma_2^2}{\sigma_1^2+\sigma_2^2}

二维正态分布(逐渐补充)

(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho )

其生成及协方差椭圆的python实现如下:

################################                二维正态分布             ###########################
from matplotlib.patches import Ellipse
def get_error_ellipse_parameters(cov, confidence=None, sigma=None):"""Returns parameters of an ellipse which contains a specifiedamount of normally-distributed 2D data, where the data ischaracterised by its covariance matrix.Parameters----------cov : array_likeInput covariance matrix of shape (2,2)confidence : floatFraction of data points within ellipse. 0 < confidence < 1.If confidence is not given, it is calculated according to sigma.sigma : floatLength of axes of the ellipse in standard deviations. If confidence is also given, sigma is ignored.Returns-------semi_major : floatLength of major semiaxis of ellipse.semi_minor : floatLength of minor semiaxis of ellipse.angle : floatRotation angle of ellipse in radian.confidence : floatFraction of data expected to lie within the ellipse.sigma : floatLength of major and minor semiaxes in standard deviations."""cov = np.array(cov)if(cov.shape != (2,2)):raise ValueError("The covariance matrix needs to be of shape (2,2)")if(confidence == None and sigma == None):raise RuntimeError("One of confidence and sigma is needed as input argument")if(confidence and sigma):print("Argument sigma is ignored as confidence is also provided!")if(confidence == None):if(sigma < 0):raise ValueError("Sigma needs to be positive")#scaling = np.square(sigma)scaling = sigmaconfidence = stats.chi2.cdf(scaling, 2)if(sigma == None):if(confidence > 1 or confidence < 0):raise ValueError("Ensure that confidence lies between 0 and 1")scaling = stats.chi2.ppf(confidence, 2)#sigma = np.sqrt(scaling)sigma = scalingeigenvalues, eigenvectors = np.linalg.eig(cov)maxindex = np.argmax(eigenvalues)vx, vy = eigenvectors[:, maxindex]angle = np.arctan2(vy, vx)semi_minor, semi_major = np.sqrt(np.sort(eigenvalues) * scaling)print("With sigma = {:.3f}, {:.1f}% of data points lie within ellipse.".format(sigma, confidence * 100))return semi_major, semi_minor, angle, confidence, sigmamu = [1,2]
cov = [[50,30],[30,50]] #sigma
#   随机数生成
z = stats.multivariate_normal(mu, cov)
data_points = z.rvs(size = 5000)fig, ax = plt.subplots()
plt.scatter(data_points[:,0], data_points[:,1], alpha = .5)#   画置信度椭圆
confidence = 0.95
semi_major, semi_minor, angle, confidence, sigma = get_error_ellipse_parameters(cov, confidence = confidence)
ax.add_patch(Ellipse(mu, 2*semi_major, 2*semi_minor, 180*angle/np.pi, facecolor = 'none', edgecolor = 'red', label = 'Confidence = {:.0f}% (sigma = {:.2f})'.format(confidence * 100, sigma)))
sigma = 1
semi_major, semi_minor, angle, confidence, sigma, = get_error_ellipse_parameters(cov, sigma = sigma)
ax.add_patch(Ellipse(mu, 2*semi_major, 2*semi_minor, 180*angle/np.pi, facecolor = 'none', edgecolor = 'yellow', label = 'Sigma = {:.0f} (confidence = {:.1f}%)'.format(sigma, confidence * 100)))
plt.legend()
plt.show()

马氏距离

计算马氏距离(Mahalanobis Distance)。一维马氏距离定义为:

\sqrt{(u-v)V^{-1}(u-v)^{T}}

iv = [[1, 0.5, 0.5], [0.5, 1, 0.5], [0.5, 0.5, 1]]
md = distance.mahalanobis([1, 0, 0], [0, 1, 0], iv)
print(md)
#   或
p = np.array([1,1])
distr = np.array([2,2])
cov = [[1,0.2],[0.2,1]]
dis = distance.mahalanobis(p, distr, cov)
# p: 一个点    
# distr : 一个分布    
# 计算分布的协方差矩阵    
#cov = np.cov(distr, rowvar=False)    
# 选取分布中各维度均值所在点    
#avg_distri = np.average(distr, axis=0)    
print(dis)

2.卡方分布

卡方分布,也写作:\chi ^2分布。服从自由度为n的卡方分布,记作\chi ^2\sim \chi ^2\left ( n \right ),其均值为 n,方差为2n。

若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布N(0,1),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。

 直观说:如果 X1,X2,X3...X„是 n个具有标准正态分布的独立变量,那么其平方和V=X_1^2+X_2^2+...+X_n^2,满足具有n个自由度的\chi ^2分布。

概率密度函数(pdf):

f_n(x)=\left\{\begin{matrix} \frac{1}{2\Gamma (n/2)}{(\frac{x}{2} )}^{\frac{n}{2}-1 }e^{-\frac{x}{2} } &,x>0 \\ 0&,x\le 0 \end{matrix}\right.

其中,\Gamma是Gamma函数,n为自由度,一般情况x\ge 0

\Gamma (\alpha )=\int_{0}^{+\infty } x^{\alpha-1}e^{-x}dx

################################                卡方分布             ###########################
for PDF in range(1,8):plt.plot(np.linspace(0,15,100),stats.chi2.pdf(np.linspace(0,15,100),df=PDF),label='k='+str(PDF))
plt.tick_params(axis="both",which="major",labelsize=18)
plt.axhline(y=0,color="black",linewidth=1.3,alpha=.7)
plt.legend()

 卡方分布表:

卡方分布相关计算

##  卡方分布相关计算
#   累积分布函数
x = stats.chi2.cdf(5.991, df=2)
#   百分比点函数(与cdf—百分位数相反)
a = stats.chi2.ppf(0.95, df=2)  
print(x,a)

生成卡方分布随机数

#生成随机数
r = stats.chi2.rvs(df=df, size=1000)

3.学生t分布

Student's t-distribution,简称为t分布。

假设随机变量Z服从标准正态分布N(0,1),另一随机变量V服从m自由度的\chi ^2分布,进一步假设Z和 V 彼此独立,则下列的数量t服从自由度为m的学生t分布:

概率密度函数(pdf):

t=\frac{Z}{\sqrt{V/m} } \sim t(m)

################################                t分布             ###########################
x = np.linspace( -3, 3, 100)
plt.plot(x, stats.t.pdf(x,1), label='df=1')
plt.plot(x, stats.t.pdf(x,2), label='df=20')
plt.plot(x, stats.t.pdf(x,100), label = 'df=100')
plt.plot( x[::5], stats.norm.pdf(x[::5]),'kx',  label='normal')
##  累积分布函数cdf
y = stats.t.cdf(x,df=100, loc=0, scale=1)
plt.plot(x,y, label='cdf')
plt.legend()


http://chatgpt.dhexx.cn/article/A2dowpC5.shtml

相关文章

概率第三章 二维随机变量及其分布

目录 一、二维随机变量及其分布 1、二维随机变量 2、二维离散型随机变量(X,Y) 3、二维连续型随机变量(X,Y) 二、二维随机变量的独立性 三、二维均匀分布和二维正态分布 二维均匀分布 二维正态分布 四、二个随机变量函数Zg(X,Y)的分布 X、Y均为离散型随机变量&#xf…

一维正态分布、二维正态分布的matlab实现

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %本程序用于产生一维正态分布、二维正态分布 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %绘制一维正态分布 xlinspace(-3,3); ynormpdf(x,0,1); figure(1) plot(x,y,r); %绘制二维正态分布 x-20:0.5:20; y-20:0.5:20; mu[-1,2];…

Matlab二维正态分布可视化

高维分布一直都是一个很抽象的概念&#xff0c;本人在学的时候很多概念不太能理解&#xff0c;于是使用了Matlab进行了可视化。并对均值、方差以及相关系数进行了调整。  图中x,y为两个变量的取值&#xff0c;z为出现的概率密度。 图1 三维图1 图2 俯视图1 变量x的均值为0&…

概统 | 连续型概率分布——正态分布(二维)

​ 编辑 设二维连续型随机变量(X,Y)的联合概率密度为

PT_二维连续型随机变量(二维均匀分布@二维正态分布)

文章目录 PT经典二维分布二维均匀分布二维正态分布二维均匀分布性质例 正态分布小结一维正态分布二维正态分布 二维正态分布二维正态概率密度边缘密度函数&#x1f60a;分布函数&#x1f60a;性质独立性二维随机变量函数的相关分布规律确定性和不确定性&#x1f388;正态分布的…

【笔记】概统论与数理统计第五章知识点总结

5.1 正态分布及其密度函数和分布函数 正态分布是自然界中最常见的分布&#xff0c;很多特征都服从正态分布&#xff0c;背后的原理是中心极限定理 1. 标准正态分布X~N(0, 1) 随机变量X的概率密度函数φ(x)随机变量x的分布函数&#x1d753;(&#x1d499;) 性质&#xff08;偶…

【概率论】5-10:二维正态分布(The Bivariate Normal Distributions)

title: 【概率论】5-10:二维正态分布(The Bivariate Normal Distributions) categories: - Mathematic - Probability keywords: - The Bivariate Normal Distributions toc: true date: 2018-04-05 22:03:55 Abstract: 本文介绍第一个多变量连续分布——双变量正态分布(本篇内…

连续型概率分布——正态分布(二维)

1. 定义&#xff1a;设二维连续型随机变量&#xff08;X&#xff0c;Y)的联合概率密度为 其中μ1&#xff0c;μ2&#xff0c;σ1&#xff0c;σ2&#xff0c;ρ均为常数&#xff0c;且σ1>0, σ2>0, |ρ|<1则称&#xff08;X&#xff0c;Y&#xff09;服从参数为μ1&…

【考研数学】三. 微分方程

文章目录 三. 微分方程1. 概念理解2. 求一阶微分方程的通解的方法2.1 可分离变量法2.2 换元法2.3 公式法&#xff08;线性&#xff09;2.4 变量替换&#xff08;非线性&#xff09; 3. 二阶微分方程的通解3.1 二阶常系数齐次微分方程的通解3.2 二阶常系数非齐次微分方程的通解3…

PKM是什么意思?

原创不易,麻烦点个关注,点个赞,谢谢各位。 PKM是什么意思? 这三个字母代表着:Personal Knowledge Management,个人知识管理系统。简单地说,就是构建一个系统,把你重要的信息都放在里面管理起来。 PKM? 锁定目标,正向学习 周期整理,合理保存 积极共享,树立品牌 大…

字符串匹配的KPM算法

转至&#xff1a;http://www.ruanyifeng.com/blog/2013/05/Knuth–Morris–Pratt_algorithm.html 字符串匹配是计算机的基本任务之一。 举例来说&#xff0c;有一个字符串"BBC ABCDAB ABCDABCDABDE"&#xff0c;我想知道&#xff0c;里面是否包含另一个字符串"…

学习报告:kmp

我们应该都知道一个这样子的题目&#xff0c; 输入两个字符串&#xff0c;求一个字符串在另一个字符串出现的次数&#xff0c;我们可以使用两个for循环来解决这个事&#xff0c;可是这个方法的时间要太久了&#xff0c;所以就需要我们kmp&#xff0c;我们先来介绍一个表 这个表…

图解+原理推导完全读懂KPM算法

文章目录 串定长顺序存储方式串的模式匹配BF算法KMP算法KMP算法原理KMP算法实现求模式串T的next值算法 时间复杂度分析BF算法分析KMP算法分析KMP算法与BF算法比较 串定长顺序存储方式 我们显式地在串的索引为0处存储串长。 #define MAXSTRLEN 255 // 用户可在255以内定义最…

英文打字速度180kpm

刚测了一下打字&#xff1b; 基本在180kpm左右&#xff1b; 作为程序员应该足够用了&#xff1b; 我看了一下kpm的意思&#xff1b; 请问英文的打字速度的KPM要多少才是一般录入员的速度呢?我177KPM是高还是低呀??? - ...... 一分钟要打60个字以上,大约要打420kpm,你的17…

4. 串的【朴素模式匹配算法】、【KPM算法:求next数组、nextval数组】

串的模式匹配:在主串中,找到与模式串相同的子串,并返回其所在位置。 其实就是给出一个串abc,找到abc在主串的位置【abc都要匹配】 模式串:给出一个串abc 子串:主串中的abc【可能没有】 文章目录 1. 串的朴素模式匹配算法1.1 方法一:用k记录位置1.2 方法二:不用k2. KPM算…

KPM算法详解(Next数组)

由LeetCode_28引发的思考 最开始用了剪枝思想的朴素解法虽然做出来了&#xff0c;在看答案的时候发现了有一种叫KMP的算法专门就是解决快速查找匹配串问题的&#xff0c;进行了深入的学习。 下面的图源自宫水三叶的解答 我们有两个字符串&#xff0c;在原串中寻找是否有匹配串。…

【C#】KPM算法解决字符串匹配问题

KPM算法解决字符串匹配问题 什么是KPM算法步骤Ⅰ根据《最大长度表》部分匹配表&#xff08;next&#xff09;寻找最长前缀后缀 Ⅱ 根据 部分匹配表 进行匹配 代码实现 什么是KPM算法 Knuth-Morris-Pratt 字符串查找算法&#xff0c;简称为 “KMP算法”&#xff0c;常用于在一个…

串的匹配 (KPM算法由来引导)

前言: 引入 KPM 算法的前提是 , B-F算法中,匹配失败后不必完全从头再来 , 找到可以利用的信息 , 可以进行跳跃性匹配 下面 , 我们对字符串匹配的一些思路进行剖析: 开始匹配的操作 ,我们会让 目标串 s , 和 模式串进行对齐,就像如图所示: 我们当然是从串 t 的头结点开始对比 对…

KPM匹配算法

KPM匹配算法 不管在工作中还是学习中经常会遇到串的模式匹配&#xff0c;一般来说&#xff0c;串的模式匹配算法主要是两种【朴素模式匹配和KPM模式匹配】一种改良【KPM的改良】&#xff0c;下面先看一下朴素模式匹配&#xff1a;朴素模式匹配主要思想比较简单也比较粗暴&…

KPM算法

算法 字符串匹配之朴素算法和KMP算法及JAVA代码实现 2017年06月02日 10:31:12 阅读数&#xff1a;941 暴力匹配算法 假设现在我们面临这样一个问题&#xff1a;有一个文本串S&#xff0c;和一个模式串P&#xff0c;现在要查找P在S中的位置&#xff0c;怎么查找呢&#xff1…