机器学习基础:概率论基础

article/2025/9/15 11:56:56

机器学习基础:概率论基础
机器学习基础:随机变量及其概率分布
机器学习基础:大数定律与中心极限定理

机器学习必备基础知识,力求以最简洁的语言,描述最完整的内容。
很多知识没有深入剖析,也没必要深入剖析。大致了解知识框架之后,即可开始学习机器学习,有不懂的再回过头再仔细研究,驱动式学习才是最高效的学习。
在这里插入图片描述

概率和统计的概念

概率论与数理统计 绝大部分理工科学生都学过的一门课。
概率和统计研究的都是概率相关问题,只是角度刚好相反。

  • 概率:已知一个模型和参数,去预测这个模型产生的结果的特性。 比如已知西瓜的甜度成正态分布,预测某写瓜甜度大于某个值的个数。

  • 统计:有一堆数据,要利用这堆数据去预测模型和参数。 比如有很多瓜,通过统计大致知道他们的甜度成正态分布,哪个 μ μ μ σ σ σ能最准确的描述这些瓜甜度的分布情况呢?

通俗讲就是:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

概率

反映随机事件出现的可能性大小。抛硬币正面朝上的概率就是1/2


条件概率

A A A发生条件下 B B B发生的概率
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(BA)=P(A)P(AB)
写成乘法
P ( A B ) = P ( A ) P ( B ∣ A ) P(AB)=P(A)P(B|A) P(AB)=P(A)P(BA)
A B AB AB事件同时发生的概率,等于事件 A A A发生的概率乘以已知事件 A A A发生时 B B B发生的概率。


乘法公式

P ( A 1 A 2 ) = P ( A 1 ) P ( A 2 ∣ A 1 ) = P ( A 2 ) P ( A 1 ∣ A 2 ) \begin{align} P({{A}_{1}}{{A}_{2}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}}) \\=P({{A}_{2}})P({{A}_{1}}|{{A}_{2}}) \end{align} P(A1A2)=P(A1)P(A2A1)=P(A2)P(A1A2)

P ( A 1 A 2 ⋯ A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) ⋯ P ( A n ∣ A 1 A 2 ⋯ A n − 1 ) P({{A}_{1}}{{A}_{2}}\cdots {{A}_{n}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}})P({{A}_{3}}|{{A}_{1}}{{A}_{2}})\cdots P({{A}_{n}}|{{A}_{1}}{{A}_{2}}\cdots {{A}_{n-1}}) P(A1A2An)=P(A1)P(A2A1)P(A3A1A2)P(AnA1A2An1)


全概率公式

事件组 A 1 , A 2 , . . . , A n ( n 可为 ∞ ) 满足: A_1,A_2,...,A_n(n可为\infin)满足: A1,A2,...,An(n可为)满足:

  • ⋃ i = 1 n A i = Ω \bigcup_{i=1}^nA_i=\Omega i=1nAi=Ω
  • A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1,A2,...,An两两互不相容,则 A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1,A2,...,An为样本空间 Ω \Omega Ω的一个划分完备事件组

全概率公式要求将样本空间分解成互不相容的简单事件,再研究这些事件发生时复杂事件 B B B的发生概率,合并后的到事件 B B B在样本空间中发生的概率。

P ( B ) = ∑ i = 1 n P ( A i B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum_{i=1}^{n}{P(A_iB)}=\sum_{i=1}^{n}P(A_i)P(B|A_i) P(B)=i=1nP(AiB)=i=1nP(Ai)P(BAi)

先验概率和后验概率

在全概率公式中, A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1,A2,...,An可以看作 B B B发生的原因, B B B是结果。 P ( A i ) P(A_i) P(Ai)称为先验概率。在机器学习中通常指的是某个分类出现的概率

若在 B B B发生后考察 A i A_i Ai发生的概率(事件 A i A_i Ai对于事件 B B B的影响程度),就是 P ( A i ∣ B ) P(A_i|B) P(AiB),称为后验概率。


Bayes公式

条件概率中的乘法公式: P ( A B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(AB) = P(A)P(B|A) = P(B)P(A|B) P(AB)=P(A)P(BA)=P(B)P(AB)

即有
P ( A ∣ B ) = P ( A ) P ( B ) ⋅ P ( B ∣ A ) (1) P(A|B)=\frac{P(A)}{P(B)}·P(B|A)\tag{1} P(AB)=P(B)P(A)P(BA)(1)
进一步加强条件:现在事件B在样本空间中被分割成了两两互不相容事件 A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1,A2,...,An ( 1 ) (1) (1)式变成了这样
P ( A i ∣ B ) = P ( A i ) P ( B ) P ( B ∣ A i ) (2) P(A_i|B)=\frac{P(A_i)}{P(B)}P(B|A_i)\tag{2} P(AiB)=P(B)P(Ai)P(BAi)(2)
将上面的全概率公式代入:
P ( A i ∣ B ) = P ( A i ) ∑ k = 1 n P ( A k ) P ( B ∣ A k ) ⋅ P ( B ∣ A i ) (3) P(A_i|B)=\frac{P(A_i)}{\sum_{k=1}^{n}P(A_k)P(B|A_k)}·P(B|A_i)\tag{3} P(AiB)=k=1nP(Ak)P(BAk)P(Ai)P(BAi)(3)
这就是 B a y e s Bayes Bayes公式

独立性

如果 A , B A,B A,B满足 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B),称事件 A B AB AB相互独立

  • 则有 P ( B ∣ A ) = P ( B ) = P ( A ) P(B|A) = P(B)=P(A) P(BA)=P(B)=P(A)

随机变量及其概率分布

离散型随机变量

随机变量 X X X的可能取值是离散的,有限个值 x 1 , . . . , x n x_1,...,x_n x1,...,xn可列无限个值 x 1 , . . . , x n , . . . x_1,...,x_n,... x1,...,xn,...

每个取值对应的概率为 p k p_k pk,记成 P ( X = x i ) = p k , k = 1 , 2 , . . . P(X=x_i)=p_k,\ k=1,2,... P(X=xi)=pk, k=1,2,...,这称为离散型随机变量 X X X分布律

两点分布

( 0 − 1 ) (0-1) (01)分布 又称两点分布 随机变量只可能取0或1
P { X = k } = p k ( 1 − p ) 1 − k ( k = 0 , 1 ) P\{X=k\}=p^k(1-p)^{1-k}\quad\quad\quad\quad(k=0,1) P{X=k}=pk(1p)1k(k=0,1)

二项分布

每次试验只有两个结果, A A A A ‾ \overline A A,且 P ( A ) = p , P ( A ‾ ) = 1 − p = q P(A)=p,\ P(\overline A)=1-p=q P(A)=p, P(A)=1p=q

  • 重复进行 n n n次试验,每次试验的结果相互独立,分布律为:

p k = P ( X = k ) = C n k p k q n − k 0 < p < 1 , q = 1 − p , k = 0 , 1 , . . . , n p_k=P(X=k)=C_n^kp^kq^{n-k}\\0<p<1,\ q=1-p,\ k=0,1,...,n pk=P(X=k)=Cnkpkqnk0<p<1, q=1p, k=0,1,...,n

n = 1 n=1 n=1时, p k = P ( X = k ) = p k q n − k p_k=P(X=k)=p^kq^{n-k} pk=P(X=k)=pkqnk 退化为两点分布

泊松分布

X X X分布律为
p k = P ( X = k ) = λ k k ! e − λ ( k = 0 , 1 , 2... , n ) , λ > 0 p_k=P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\\(k=0,1,2...,n),\ \lambda>0 pk=P(X=k)=k!λkeλ(k=0,1,2...,n), λ>0
X X X服从以参数为 λ \lambda λ的泊松分布,记为 X ∼ P ( λ ) X\thicksim P(\lambda) XP(λ)

  • 泊松分布是二项分布的极限分布,当 n n n很大, p p p很小时,二项分布可以近似地看成是参数 λ = n p \lambda=np λ=np的泊松分布
  • 常用于描述大量实验中稀有事件出现频数的概率模型。因为根据分布律,当 k k k越大时 P ( X = k ) P(X=k) P(X=k)越来越小(阶乘比指数高阶),也就是说, X X X取大值的概率很小

几何分布

n n n重伯努利试验中,记 X X X为事件 A A A首次发生所需的试验次数,即 P ( X = k ) P(X=k) P(X=k) A A A k − 1 k-1 k1次不发生,第 k k k次发生的概率
p k = P ( X = k ) = q k − 1 p k = 1 , 2 , . . . ; q = 1 − p p_k=P(X=k)=q^{k-1}p \quad \quad k=1,2,...;\ q=1-p pk=P(X=k)=qk1pk=1,2,...; q=1p

X X X服从参数为 p p p的几何分布,记为 X ∼ g ( p ) X\thicksim g(p) Xg(p)

  • 验证分布律性质:
    ∑ k = 1 ∞ p k = ∑ k = 1 ∞ q k − 1 p = p ∑ k = 1 ∞ q k − 1 = p 1 1 − q = 1 \sum_{k=1}^{\infin}p_k=\sum_{k=1}^{\infin}q^{k-1}p=p\sum_{k=1}^{\infin}q^{k-1}=p\frac1{1-q}=1 k=1pk=k=1qk1p=pk=1qk1=p1q1=1

连续型随机变量

概率密度

  • 对于随机变量 X X X,若存在非负函数 f ( x ) , ( − ∞ < x < + ∞ ) f(x),(-\infin<x<+\infin) f(x),(<x<+),使对任意实数 x x x,都有
    F ( x ) = P ( X ⩽ x ) = ∫ − ∞ x f ( u ) d u F(x)=P(X\leqslant x)=\int_{-\infin}^xf(u)du F(x)=P(Xx)=xf(u)du
    则称 X X X连续型随机变量 f ( x ) f(x) f(x) X X X概率密度函数,简称概率密度或密度函数

    常记为 X ∼ f ( x ) , ( − ∞ < x < + ∞ ) X\sim f(x),(-\infin<x<+\infin) Xf(x),(<x<+)

    性质

    • f ( x ) ⩾ 0 f(x)\geqslant 0 f(x)0
    • ∫ − ∞ + ∞ f ( u ) d u = 1 \int_{-\infin}^{+\infin}f(u)du=1 +f(u)du=1
    • 任意实数 a < b a<b a<b P ( a < X ⩽ b ) = F ( b ) − F ( a ) = ∫ a b f ( u ) d u P(a<X\leqslant b)=F(b)-F(a)=\int_{a}^{b}f(u)du P(a<Xb)=F(b)F(a)=abf(u)du
    • 其实上式 P ( a < X ⩽ b ) P(a<X\leqslant b) P(a<Xb)中小于号取不取整并不影响结果(与离散型随机变量严格要求左开右闭不同!)因为 f ( x ) f(x) f(x)可积 → \rightarrow F ( x ) F(x) F(x)连续(左右都连续),有 P ( X = a ) = F ( a ) − F ( a − 0 ) = 0 P(X=a)=F(a)-F(a-0)=0 P(X=a)=F(a)F(a0)=0
    • x x x f ( x ) f(x) f(x)的连续点,则 f ( x ) = F ′ ( x ) f(x)=F'(x) f(x)=F(x)

均匀分布

  • X X X概率密度为
    f ( x ) = { 1 b − a , a<x<b 0 , 其他 f(x)=\begin{cases} \frac1{b-a}, & \text{a<x<b}\\ 0, & \text{其他} \end{cases} f(x)={ba1,0,a<x<b其他
    则称 X X X在**区间[a,b]**上服从均匀分布,记为 X ∼ U [ a , b ] X\sim U[a,b] XU[a,b]

    分布函数为
    F ( x ) = { 0 , x<a x − a b − a , a ⩽ x < b 1 , x ⩾ b F(x)=\begin{cases} 0, & \text{x<a}\\ \frac{x-a}{b-a}, & {a\leqslant x<b}\\ 1, &{x\geqslant b} \end{cases} F(x)= 0,baxa,1,x<aax<bxb

  • P ( c < X < d ) = ∫ c d f ( x ) d x = ∫ c d 1 b − a d x = d − c b − a P(c<X<d)=\int_c^df(x)dx=\int_c^d\frac1{b-a}dx=\frac{d-c}{b-a} P(c<X<d)=cdf(x)dx=cdba1dx=badc

    概率意义 X X X落在 ( a , b ) (a,b) (a,b)中任一区间的概率只与该区间的长度成正比,而与该区间的位置无关

    指数分布

    X X X概率密度为
    f ( x ) = { λ e − λ x , x ⩾ 0 0 , x < 0 f(x)=\begin{cases} \lambda e^{-\lambda x},&{x\geqslant 0}\\ 0, &{x<0} \end{cases} f(x)={λeλx,0,x0x<0
    其中 λ > 0 \lambda>0 λ>0为常数,则称 X X X服从参数为 λ \lambda λ指数分布,记为 X ∼ E ( λ ) X\sim E(\lambda) XE(λ)

    X X X分布函数为
    F ( x ) = { 1 − e − λ x , x ⩾ 0 0 , 其他 F(x)=\begin{cases} 1- e^{-\lambda x},&{x\geqslant 0}\\ 0, &{其他} \end{cases} F(x)={1eλx,0,x0其他

    3 正态分布

    X X X密度函数为
    f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 x ∈ R f(x)=\frac{1}{\sqrt {2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\\ x\in \R f(x)=2π σ1e2σ2(xμ)2xR
    其中 μ \mu μ为实数, σ > 0 \sigma>0 σ>0,类比测量时的真实值为 μ \mu μ n n n次测量均方误差 1 n ∑ ( x i − μ ) 2 → σ 2 \frac1n\sum(x_i-\mu)^2\rightarrow \sigma^2 n1(xiμ)2σ2,则称 X X X服从参数为 μ , σ 2 \mu,\sigma^2 μ,σ2正态分布,也称高斯分布,记为 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2)

    密度函数图像性质:

    • 单峰对称:关于直线 x = μ x=\mu x=μ对称, x = μ x=\mu x=μ f ( x ) m a x = 1 2 π σ f(x)_{max}=\frac1{\sqrt{2\pi} \sigma} f(x)max=2π σ1

    • 由于图像覆盖面积是 1 1 1,固定 μ \mu μ时, σ \sigma σ越小,最高点越高,即图形越高越陡;反之图形越低越平(换个角度,误差越小越靠近真实值 μ \mu μ

    • μ = 0 , σ = 1 \mu=0,\ \sigma=1 μ=0, σ=1时的正态分布称为标准正态分布,记作 X ∼ N ( 0 , 1 ) X\sim N(0,1) XN(0,1)

      • f ( x ) = 1 2 π e − x 2 2 x ∈ R f(x)=\frac{1}{\sqrt {2\pi}}e^{-\frac{x^2}{2}}\quad\quad\quad x\in \R f(x)=2π 1e2x2xR

        分布函数
        Φ ( x ) = P ( X ⩽ x ) = 1 2 π ∫ − ∞ x e − t 2 2 d t x ∈ R Φ ( 0 ) = 1 2 Φ ( + ∞ ) ( 对称性 ) \Phi(x)=P(X\leqslant x)=\frac{1}{\sqrt {2\pi}}\int _{-\infin}^x e^{-\frac{t^2}{2}}dt\\ x\in \R\\ \Phi(0)=\frac12\Phi(+\infin)(对称性) Φ(x)=P(Xx)=2π 1xe2t2dtxRΦ(0)=21Φ(+)(对称性)

        对标准正态分布的分布函数 Φ ( x ) \Phi(x) Φ(x),有 Φ ( − x ) = 1 − Φ ( x ) \Phi(-x)=1-\Phi(x) Φ(x)=1Φ(x)


http://chatgpt.dhexx.cn/article/G0DXySWe.shtml

相关文章

Ross《概率论基础教程》—Note 1

第一章——组合分析 1. 很多概率论中的问题只要通过计算某个事件发生的结果的数目就能解决&#xff0c;关于计数的数学理论就是组合分析&#xff08;Combinatorial Analysis&#xff09;。 2. 计数的基本法则&#xff1a;假设一共有r个实验&#xff0c;实验i有个结果&#xf…

概率论基础知识汇总

文章目录 矩&#xff1a;原始矩&#xff0c;中心矩协方差和相关系数大数定律 矩&#xff1a;原始矩&#xff0c;中心矩 存在意义&#xff1a; 在数学和统计学中&#xff0c;矩&#xff08;moment&#xff09;是对变量分布和形态特点的一组度量。 原点矩和中心距的定义 直接…

概率论的基础概念(1)

重点讲述&#xff1a; 首先&#xff0c;最重要的前提&#xff1a; &#xff08;1&#xff09;随机试验&#xff08;大量&#xff08;无穷次&#xff09;重复试验&#xff09;是概率论的基础&#xff01;&#xff01;&#xff01; &#xff08;2&#xff09;随机变量是不确定的&…

概率论基础

概率论基础 1. 随机事件 1.1. 概念 1.1.1. 随机现象 在一定的条件下&#xff0c;并不总是出现相同的结果的现象称为随机现象&#xff0c;如抛一枚硬币与掷一颗骰子。随机现象有两个特点&#xff1a; 结果不止一个&#xff1b;哪一个结果出现&#xff0c;人们事先不知道。 …

概率论基础知识(一)概率论基本概念

概率论 0. 前言 本文主要旨在对概率论的基础概念与知识进行概要的总结&#xff0c;以便于使用到时可以参考。 概率论是数理统计的基础&#xff0c;也是很多机器学习模型的支撑&#xff0c;概率论在机器学习中占主要地位&#xff0c;因为概率论为机器学习算法的正确性提供了理…

SSD算法理解(2)

作者&#xff1a;叶 虎 编辑&#xff1a;祝鑫泉 前言 目标检测近年来已经取得了很重要的进展&#xff0c;主流的算法主要分为两个类型&#xff1a;&#xff08;1&#xff09;two-stage方法&#xff0c;如R-CNN系算法&#xff0c;其主要思路是先通过启发式方法&#xff08;selec…

SSD算法详解default box

本文提出的SSD算法是一种直接预测目标类别和bounding box的多目标检测算法。 与faster rcnn相比&#xff0c;该算法没有生成 proposal 的过程&#xff0c;这就极大提高了检测速度。针对不同大小的目标检测&#xff0c;传统的做法是先将图像转换成不同大小&#xff08;图像金字塔…

【个人整理】一文看尽目标检测算法SSD的核心架构与设计思想

前言&#xff1a;SSD&#xff08;Single Shot MultiBox Detector&#xff09;是大神Wei Liu在 ECCV 2016上发表的一种的目标检测算法。对于输入图像大小300x300的版本在VOC2007数据集上达到了72.1%mAP的准确率并且检测速度达到了惊人的58FPS&#xff08; Faster RCNN&#xff1…

目标检测:SSD算法原理综述

SSD&#xff08;Single Shot Detection&#xff09;是一个流行且强大的目标检测网络&#xff0c;网络结构包含了基础网络&#xff08;Base Network&#xff09;&#xff0c;辅助卷积层&#xff08;Auxiliary Convolutions&#xff09;和预测卷积层&#xff08;Predicton Convol…

SSD算法阅读记录

SSD: Single Shot MultiBox Detector 一、网络结构二、模型设计1、多尺度特征映射2、使用卷积进行检测3、使用default boxes 三、模型训练1、匹配策略2、损失函数3、default boxes的确定4、难分样本挖掘 四、参考链接 一、网络结构 SSD网络是在VGG16的基础上修改得到的&#xf…

2.1 SSD算法理论

前言 随着人工智能的不断发展&#xff0c;机器学习这门技术也越来越重要&#xff0c;很多人都开启了学习机器学习&#xff0c;本文就介绍了机器学习的基础内容。来源于哔哩哔哩博主“霹雳吧啦Wz”&#xff0c;博主学习作为笔记记录&#xff0c;欢迎大家一起讨论学习交流。 一…

SSD检测算法理解

SSD检测算法理解 简介1 SSD模型2 SSD算法的核心设计思想3 多尺度特征图检测思想4 单尺度特征图检测4.1 先验框的设置4.2 先验框的比例和宽高比4.3 Loss计算 5 性能评估 简介 在作者的原论文中提到&#xff0c;SSD算法要比当时优秀的Faster RCNN算法和YOLO算法识别效果更好&…

SSD算法通俗详解

算法简介 算法原理 样本构造 损失函数 使用细节 # ssd算法&#xff1a; ##简介 刘伟在2016年提出&#xff0c;发表在ECCV&#xff1b;是一种通过直接回归的方式去获取目标类别和位置的one-stage算法&#xff0c;不需要proposal&#xff1b;作用在卷积网络的输出特征图上进行预…

详细解读目标检测经典算法-SSD

学习目标&#xff1a; 知道SSD的多尺度特征图的网络知道SSD中先验框的生成方式知道SSD的损失函数的设计 目标检测算法主要分为两类&#xff1a; Two-stage方法&#xff1a;如R-CNN系列算法&#xff0c;主要思路就是通过Selective Search或者CNN网络产生一系列的稀疏矩阵的候…

SSD目标检测算法——通俗易懂解析

目录 前言SSD网络 前言 前面几篇文章我们讲解了YOLO系类的论文&#xff0c;今天我们来看下SSD算法。对YOLO有兴趣的小伙伴们可以一步到我前面的几篇博文&#xff1a; YOLOv1目标检测算法——通俗易懂的解析YOLOv2目标检测算法——通俗易懂的解析YOLOv3目标检测算法——通俗易懂…

SSD算法理解(1)

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/u010167269/article/details/52563573 Preface 这是今年 ECCV 2016 的一篇文章&#xff0c;是 UNC Chapel Hill&#xff08;北卡罗来纳大学教堂山分校&#xff09; 的 Wei Li…

SSD算法分析

SSD算法分析 1 SSD算法概述2 SSD整体流程3 SSD中的重要概念3.1 多尺度Feature Map检测3.2 Default Box3.2.1 设计思路3.2.2 参数计算 4 SSD网络架构与网络预测4.1 网络架构4.2 网络预测4.3 预测值解码 5 网络训练5.1 Ground Truth编码5.2 匹配策略5.3 损失函数5.3.1 定位损失5.…

SSD算法简单解析

前言 今天学习SSD目标检测算法&#xff0c;SSD&#xff0c;全称Single Shot MultiBox Detector&#xff0c;是2016年提出的算法&#xff0c;今天我们还是老规矩&#xff0c;最简单的做算法解析&#xff0c;力求让像我一样的小白也可以看得懂。 算法初识 1》算法能干什么&…

深度学习算法之-SSD(一)

版权声明&#xff1a;本文为博主原创文章&#xff0c;转载需注明出处。 https://blog.csdn.net/qianqing13579/article/details/82106664 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_html…

SSD系列算法原理讲解----(1)SSD系列算法介绍(主干网络、多尺度Feature Map预测)(笔记)

SSD系列算法原理介绍 SSD算法介绍&#xff1a; Single Shot MultiBox Detector&#xff08;One-stage方法&#xff09; - Wei Liu在ECCV 2016提出 - 直接回归目标类别和位置 - 不同尺度的特征图上进行检测 - 端到端的训练 - 图像的分辨率比较低&#xff0c;也能保证检测的精度 …