机器学习基础：概率论基础
机器学习基础：随机变量及其概率分布
机器学习基础：大数定律与中心极限定理

机器学习必备基础知识，力求以最简洁的语言，描述最完整的内容。
很多知识没有深入剖析，也没必要深入剖析。大致了解知识框架之后，即可开始学习机器学习，有不懂的再回过头再仔细研究，驱动式学习才是最高效的学习。
在这里插入图片描述

概率和统计的概念

概率论与数理统计绝大部分理工科学生都学过的一门课。
概率和统计研究的都是概率相关问题，只是角度刚好相反。

概率：已知一个模型和参数，去预测这个模型产生的结果的特性。 比如已知西瓜的甜度成正态分布，预测某写瓜甜度大于某个值的个数。
统计：有一堆数据，要利用这堆数据去预测模型和参数。 比如有很多瓜，通过统计大致知道他们的甜度成正态分布，哪个 $μ$ 和 $σ$ 能最准确的描述这些瓜甜度的分布情况呢？

通俗讲就是：概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。

概率

反映随机事件出现的可能性大小。抛硬币正面朝上的概率就是1/2

条件概率

$A$ 发生条件下 $B$ 发生的概率
$P(B|A)=\frac{P(AB)}{P(A)}$
写成乘法
$P (A B) = P (A) P (B ∣ A)$
$A B$ 事件同时发生的概率，等于事件 $A$ 发生的概率乘以已知事件 $A$ 发生时 $B$ 发生的概率。

乘法公式

$\begin{align} P({{A}_{1}}{{A}_{2}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}}) \\=P({{A}_{2}})P({{A}_{1}}|{{A}_{2}}) \end{align}$

$P({{A}_{1}}{{A}_{2}}\cdots {{A}_{n}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}})P({{A}_{3}}|{{A}_{1}}{{A}_{2}})\cdots P({{A}_{n}}|{{A}_{1}}{{A}_{2}}\cdots {{A}_{n-1}})$

全概率公式

事件组 $A_1,A_2,...,A_n(n可为\infin)满足：$

$\bigcup_{i=1}^nA_i=\Omega$
$A_1,A_2,...,A_n$ 两两互不相容，则 $A_1,A_2,...,A_n$ 为样本空间 $\Omega$ 的一个划分或完备事件组

全概率公式要求将样本空间分解成互不相容的简单事件，再研究这些事件发生时复杂事件 $B$ 的发生概率，合并后的到事件 $B$ 在样本空间中发生的概率。

$P(B)=\sum_{i=1}^{n}{P(A_iB)}=\sum_{i=1}^{n}P(A_i)P(B|A_i)$

先验概率和后验概率

在全概率公式中， $A_1,A_2,...,A_n$ 可以看作 $B$ 发生的原因， $B$ 是结果。 $P(A_i)$ 称为先验概率。在机器学习中通常指的是某个分类出现的概率

若在 $B$ 发生后考察 $A_i$ 发生的概率（事件 $A_i$ 对于事件 $B$ 的影响程度），就是 $P(A_i|B)$ ，称为后验概率。

Bayes公式

条件概率中的乘法公式： $P (A B) = P (A) P (B ∣ A) = P (B) P (A ∣ B)$

即有
$P(A|B)=\frac{P(A)}{P(B)}·P(B|A)\tag{1}$
进一步加强条件：现在事件B在样本空间中被分割成了两两互不相容事件 $A_1,A_2,...,A_n$ $(1)$ 式变成了这样
$P(A_i|B)=\frac{P(A_i)}{P(B)}P(B|A_i)\tag{2}$
将上面的全概率公式代入：
$P(A_i|B)=\frac{P(A_i)}{\sum_{k=1}^{n}P(A_k)P(B|A_k)}·P(B|A_i)\tag{3}$
这就是 $B a yes$ 公式

独立性

如果 $A, B$ 满足 $P (A B) = P (A) P (B)$ ，称事件 $A B$ 相互独立

则有 $P (B ∣ A) = P (B) = P (A)$

随机变量及其概率分布

离散型随机变量

随机变量 $X$ 的可能取值是离散的，有限个值 $x_1,...,x_n$ 或可列无限个值 $x_1,...,x_n,...$

每个取值对应的概率为 $p_k$ ，记成 $P(X=x_i)=p_k,\ k=1,2,...$ ，这称为离散型随机变量 $X$ 的分布律

两点分布

$(0 - 1)$ 分布 又称两点分布 随机变量只可能取0或1
$P\{X=k\}=p^k(1-p)^{1-k}\quad\quad\quad\quad(k=0,1)$

二项分布

每次试验只有两个结果， $A$ 与 $\overline A$ ，且 $P(A)=p,\ P(\overline A)=1-p=q$

重复进行 $n$ 次试验，每次试验的结果相互独立，分布律为：

$p_k=P(X=k)=C_n^kp^kq^{n-k}\\0<p<1,\ q=1-p,\ k=0,1,...,n$

当 $n = 1$ 时， $p_k=P(X=k)=p^kq^{n-k}$ 退化为两点分布

泊松分布

$X$ 分布律为
$p_k=P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\\(k=0,1,2...,n),\ \lambda>0$
称 $X$ 服从以参数为 $\lambda$ 的泊松分布，记为 $X\thicksim P(\lambda)$

泊松分布是二项分布的极限分布，当 $n$ 很大， $p$ 很小时，二项分布可以近似地看成是参数 $\lambda=np$ 的泊松分布
常用于描述大量实验中稀有事件出现频数的概率模型。因为根据分布律，当 $k$ 越大时 $P (X = k)$ 越来越小（阶乘比指数高阶），也就是说， $X$ 取大值的概率很小

几何分布

$n$ 重伯努利试验中，记 $X$ 为事件 $A$ 首次发生所需的试验次数，即 $P (X = k)$ 为 $A$ 前 $k - 1$ 次不发生，第 $k$ 次发生的概率
$p_k=P(X=k)=q^{k-1}p \quad \quad k=1,2,...;\ q=1-p$

称 $X$ 服从参数为 $p$ 的几何分布，记为 $X\thicksim g(p)$

验证分布律性质：
$\sum_{k=1}^{\infin}p_k=\sum_{k=1}^{\infin}q^{k-1}p=p\sum_{k=1}^{\infin}q^{k-1}=p\frac1{1-q}=1$

连续型随机变量

概率密度

对于随机变量 $X$ ，若存在非负函数 $f(x),(-\infin<x<+\infin)$ ，使对任意实数 $x$ ，都有
$F(x)=P(X\leqslant x)=\int_{-\infin}^xf(u)du$
则称 $X$ 为连续型随机变量， $f (x)$ 为 $X$ 的概率密度函数，简称概率密度或密度函数

常记为 $X\sim f(x),(-\infin<x<+\infin)$

性质
- $f(x)\geqslant 0$
- $\int_{-\infin}^{+\infin}f(u)du=1$
- 任意实数 $a < b$ ， $P(a<X\leqslant b)=F(b)-F(a)=\int_{a}^{b}f(u)du$
- 其实上式 $P(a<X\leqslant b)$ 中小于号取不取整并不影响结果（与离散型随机变量严格要求左开右闭不同！）因为 $f (x)$ 可积 $\rightarrow$ $F (x)$ 连续（左右都连续），有 $P (X = a) = F (a) - F (a - 0) = 0$
- 若 $x$ 是 $f (x)$ 的连续点，则 $f (x) = F^{'} (x)$

均匀分布

$X$ 概率密度为
$f(x)=\begin{cases} \frac1{b-a}, & \text{a<x<b}\\ 0, & \text{其他} \end{cases}$
则称 $X$ 在**区间[a,b]**上服从均匀分布，记为 $X\sim U[a,b]$

分布函数为
$F(x)=\begin{cases} 0, & \text{x<a}\\ \frac{x-a}{b-a}, & {a\leqslant x<b}\\ 1, &{x\geqslant b} \end{cases}$
$P(c<X<d)=\int_c^df(x)dx=\int_c^d\frac1{b-a}dx=\frac{d-c}{b-a}$

概率意义： $X$ 落在 $(a, b)$ 中任一区间的概率只与该区间的长度成正比，而与该区间的位置无关

指数分布

$X$ 概率密度为
$f(x)=\begin{cases} \lambda e^{-\lambda x},&{x\geqslant 0}\\ 0, &{x<0} \end{cases}$
其中 $\lambda>0$ 为常数，则称 $X$ 服从参数为 $\lambda$ 的指数分布，记为 $X\sim E(\lambda)$

$X$ 分布函数为
$F(x)=\begin{cases} 1- e^{-\lambda x},&{x\geqslant 0}\\ 0, &{其他} \end{cases}$

3 正态分布

$X$ 密度函数为
$f(x)=\frac{1}{\sqrt {2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\\ x\in \R$
其中 $\mu$ 为实数， $\sigma>0$ ，类比测量时的真实值为 $\mu$ ， $n$ 次测量均方误差 $\frac1n\sum(x_i-\mu)^2\rightarrow \sigma^2$ ，则称 $X$ 服从参数为 $\mu,\sigma^2$ 的正态分布，也称高斯分布，记为 $X\sim N(\mu,\sigma^2)$

密度函数图像性质：
- 单峰对称：关于直线 $x=\mu$ 对称， $x=\mu$ 时 $f(x)_{max}=\frac1{\sqrt{2\pi} \sigma}$
- 由于图像覆盖面积是 $1$ ，固定 $\mu$ 时， $\sigma$ 越小，最高点越高，即图形越高越陡；反之图形越低越平（换个角度，误差越小越靠近真实值 $\mu$ ）
- $\mu=0,\ \sigma=1$ 时的正态分布称为标准正态分布，记作 $X\sim N(0,1)$
  - $f(x)=\frac{1}{\sqrt {2\pi}}e^{-\frac{x^2}{2}}\quad\quad\quad x\in \R$
    
    分布函数
    $\Phi(x)=P(X\leqslant x)=\frac{1}{\sqrt {2\pi}}\int _{-\infin}^x e^{-\frac{t^2}{2}}dt\\ x\in \R\\ \Phi(0)=\frac12\Phi(+\infin)(对称性)$
    
    对标准正态分布的分布函数 $\Phi(x)$ ，有 $\Phi(-x)=1-\Phi(x)$