数理统计三大分布:卡方分布、t分布、F分布
- 正态分布
- 卡方分布
- 定义
- 概率密度函数
- 性质
- t分布
- 定义
- 概率密度函数
- 性质
- F分布
- 定义
- 概率密度函数
- 性质
- Attention
正态分布
由于 χ 2 \chi^2 χ2(chi-squard)分布、t分布、F分布都是由正态分布构造的,首先对正态分布密度函数定义有
P ( x ) = 1 2 π σ exp − ( x − μ ) 2 2 σ 2 P(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp^{-\frac{(x-\mu)^2}{2\sigma^2}} P(x)=2πσ1exp−2σ2(x−μ)2
而标准化的正态分布为
P ( x ) = 1 2 π exp − x 2 2 P(x) = \frac{1}{\sqrt{2\pi}}\exp^{-\frac{x^2}{2}} P(x)=2π1exp−2x2
卡方分布
定义
设 X 1 , X 2 , . . . . . . , X n X_1,X_2,......,X_n X1,X2,......,Xn相互独立并且都满足标准正态分布(0,1),则称 r . v . r.v. r.v.
Y = ∑ i = 1 n X i 2 Y = \sum_{i=1}^{n}X_i^2 Y=∑i=1nXi2 服从自由度为 n n n的 χ 2 \chi^2 χ2分布,记为 Y ∼ χ 2 ( n ) Y \sim \chi^2(n) Y∼χ2(n)
概率密度函数
f ( x ; n ) = 1 2 n 2 Γ ( n 2 ) x n 2 − 1 e − x 2 ( x > 0 ) f(x;n)=\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}(x>0) f(x;n)=22nΓ(2n)1x2n−1e−2x(x>0)
其中 Γ ( s ) = ∫ 0 ∞ e − t t s − 1 d t ( s > 0 ) \Gamma(s) = \int_{0}^{\infty}e^{-t}t^{s-1}dt(s>0) Γ(s)=∫0∞e−tts−1dt(s>0),对于伽马函数 Γ ( ⋅ ) \Gamma(·) Γ(⋅)先挖个坑(可以暂时先看这个也挺不错的)。
对于不同参数的密度函数有:
性质
t分布
定义
设 r . v . Z , Y r.v.Z,Y r.v.Z,Y,其中 Z ∼ N ( 0 , 1 ) , X ∼ χ 2 ( n ) Z\sim N(0,1),X\sim \chi^2(n) Z∼N(0,1),X∼χ2(n),则定义 r . v . T = Z X / n r.v.T = \frac{Z}{\sqrt{X/n}} r.v.T=X/nZ为服从自由度为n的t分布。
对于不同参数的t分布密度函数有图如下:
概率密度函数
性质
t分布主要是检验均值是否相同,在小样本中有着广泛的应用。同时t分布有着厚尾性质,对于一些性质不那么好的点比较宽容(比如t-SNE对于SNE的改进)。
特别值得注意的是,t(1)为Cauchy分布,就是那个令人讨厌的没有高阶矩的可恶的家伙,而当 n → ∞ n \rightarrow \infty n→∞时候,t分布就趋向于正态分布。
F分布
定义
假设 r . v . X , Y r.v. X,Y r.v.X,Y分别满足 X ∼ χ 2 ( n 1 ) , Y ∼ χ 2 ( n 2 ) X\sim \chi^2(n_1),Y \sim\chi^2(n_2) X∼χ2(n1),Y∼χ2(n2),则称 r . v . Z = X / n 1 Y / n 2 r.v. Z = \frac{X/n_1}{Y/n_2} r.v.Z=Y/n2X/n1为F分布
概率密度函数
对于不同参数的F分布密度函数有图如下:
性质
我个人对F分布第一次有深刻印象是在方差检验中,现在回头来看F检验的定义,确定F检验是用来检验方差是否不同。
Attention
这三个分布是数理统计常用的分布,但特别要注意的是,t分布和F分布只能用来检验连续性数据,所以当检验数据特别稀疏的时候容易导致误判,而 χ 2 \chi^2 χ2分布都可以。