数学期望、信息量、信息熵、相对熵、交叉熵

article/2025/9/11 17:12:20

1、数学期望

数学期望就是总体的均值,或者各项的加权平均。

先看离散的情况,假设X为离散型随机变量,x1,x2,x3,……,xk为随机变量的所有可能取值,p1,p2,p3,……,pk为随机变量相应取值发生的概率,其中p1+p2+p3+……+pk=1。

那么随机变量X的数学期望为:

再看连续的情况,假设X为连续型随机变量,x表示随机变量在实数范围内的联系取值,f(x)为概率密度函数。

那么随机变量X的数学期望为:

2、信息量

一个事件的信息量与这个事件发生的概率是呈负相关的。举个例子:下雨的时候,天上没有太阳,这基本上是一个必然事件,带给我们的信息很少。再举个例子:国足踢进了世界杯,这是个小概率事件,这里面一定有很多曲折的事情,把它搞清楚所需的信息量就越大。

这个很好理解,就拿生活中的例子来说,越大概率事件所涵盖的信息量越小,如:晴天的早上太阳从东边升起,这可以说是一个必然事件,给我们带来的信息几乎为零。如:国足踢进了世界杯,对于这种几乎不可能的小概率事件,人们估计都会想把它搞清楚,想把他们搞清楚需要的信息很多,比如谁踢进的球,他们赛场上表现如何,犯规了吗等等…变量的不确定性越大,把它搞清楚所需要的信息量也就越大,这很容易理解。

下面对信息量下个定义,假设X为随机变量,X取xi的概率为p(xi),那么xi发生的信息量为,其中log是以2为底的对数。由于log为递增函数,取负数之后则为递减,那么该公式满足“一个事件的信息量与其发生的概率是呈负相关的”的条件。

3、信息熵

信息量度量的是一个具体事件发生所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。

下面对信息熵进行定义,假设X为随机变量,那么X的信息熵表示X的所有取值所带来的信息量的期望,如下公式所示,p(xi)表示xi发生的概率,I(xi)表示xi发生的信息量,乘积累加和则表示了信息量的数学期望。

4、相对熵

相对熵又称KL散度,用于衡量两个概率分布(如p(X)、Q(X))之间的差异(距离)。

对于随机变量离散的情况,这么定义相对熵,即事件A和B的差别:

对于随机变量连续的情况,这么定义相对熵,即事件A和B的差别:

从上面的公式可以看出:

(1)如果PA=PB,那么对数部分为0,则推出整式为0,即D(A-B)=0;

(2)减号左边是事件A的信息熵;

(3)如果改变A和B的顺序,求D(B-A),就要用到B的信息熵,那么结果就不一样了。

5、交叉熵

交叉熵和相对熵(KL散度)的公式非常相近,其实就是KL散度的后半部分。那么交叉熵的定义如下:


http://chatgpt.dhexx.cn/article/UgHRwk7o.shtml

相关文章

信息论:信息量的计算

香农定义,一个事件包含信息量的大小由这个事件消除了多少不确定性决定 计算得出的信息称为 Shannon information content 信息量在某些情况下是可加的,比如: 得知一个六面骰子投掷三次的结果所包含的信息量,是得知投掷一次的结果…

信息量与信息熵

信息量 信息奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”。也就是说衡量信息量大小就看这个信息消除不确定性的程度。 “太阳从东方升起了”这条信息没有减少不确定性。因为太阳肯定从东面升起。这是句废话,信息量为0。 …

信息量为什么要表示成对数的形式

近期在路上进行了不少的思考,任何方面,任何领域…我会把这些记录在手机的备忘录里,然后在周末总结出来,早就成了习惯。 近日对信息论,排队论以及贝叶斯定理关注比较多,后二者可以完全改造TCP的拥塞控制机制…

离散信源信息量、平均信息量的计算

信息量I与消息出现的概率 P(x) 之间的关系: 1.信息量是概率的函数,即If[P(x)]; 2.P(x) 越小,I越大,P(x) 越大,I越小; 3.若干个相互独立事件构成的消息,所含信息量等于各独立事件信息…

信息量和信息熵的理解

信息量和信息熵的概念最早是出现在通信理论中的,其概念最早是由信息论鼻祖香农在其经典的paper《A Mathematical Theory of Communication》中提出的。如今,这些概念不仅仅是通信领域中的基础概念,也被广泛的应用到了其他的领域中&#xff0c…

《通信原理》(2):信息量及平均信息量

前言 在上篇文章中我们介绍了下通信系统,按照信道中传输的是模拟信号还是数字信号,通信系统可分为模拟通信系统和数字通信系统;此外我们还介绍了广播、点-点、单工通信、半双工通信、全双工通信、并行传输、串行传输这些通信方式。在这篇文章…

特征选择——互信息量

最近做了一个数据比赛,由于对数据背后的业务不太了解,所以特征工程大多采取了“暴力”提取的方式,最终特征过多直接导致模型存在过拟合问题。所以赛后总结在做特征工程的过程中就要考虑特征的取舍问题,主要通过特征与因变量Y之间的…

信息论——信源信息量和信息熵

目录 一、概率基础知识 二、信源信息量和信息熵 离散有记忆信源 信源的随机性 信息量大小 自信息量;该符号出现后,提供给接收者的信息量,表示信源符号的先验不确定性 事件之间的互信息量:事件与事件之间的互信息量之所以存…

信息及信号量之信息量的推导过程

对此先让我们看一下官方的定义: 信息: 信息是对客观世界中各种事物的运动状态和变化的反映,是客观事物之间相互联系和相互作用的表征,表现的是客观事物运动状态和变化的实质内容。 信息量:对信息计量的一种量度 计算…

信息量理解、信息熵公式的推导

1, 了解信息熵先弄明白信息量的概念 信息量是指信息多少的量度。 信息量有两个重要的特点: (1)一个事件的信息量与这个事件发生的概率是呈负相关的。这个很好理解,就拿生活中的例子来说,越大概率事件所涵盖的信息量越小&#xff0…

信息量,熵,互信息,信道容量等相关概念

读论文时,发现关于信息论一无所知的样子,基本概念十分混淆,下面是一些基本概念及对应的理解~ 文章目录 一. 信息量二. 熵三. 联合熵四. 条件熵五. 互信息六. 信道容量 一. 信息量 1. 定义 信息量是对事件的不确定性的度量,单位b…

车牌识别C语言源码

欢迎加入群105060236讨论。 2011-11-23更新本算法主要分成这几个部分,图像采集(即图像输入)、图像预处理(粗略定位车牌位置)、图像处理(精确确定车牌位置,去噪)、车牌字符分割&…

Tensorflow车牌识别完整项目(含完整源代码及训练集)

基于TensorFlow的车牌识别系统设计与实现,运用tensorflow和OpenCV的相关技术,实现车牌的定位、车牌的二值化、车牌去噪增强、图片的分割,模型的训练和车牌的识别等 项目问题,毕设,大创可私聊博主 目录 环境准备 思路…

车牌识别:HyperLPR车牌识别代码解析

首先声明,这只是本人自己对HyperLPR代码的看法解析可能会有错还请多多谅解。 先贴上HyperLPR源码的链接HyperLPR 其中最有用的其实就是HyperLPRLite.py这个代码文件,原来Github上的使用教程可能有点老了不太适用,这边附上一个简单的demo使用&…

opencv + svm实现车牌识别(附完整代码)

一、实验目的 通过一张含有车牌的车的照片,分割出车牌并识别出图片上车的车牌号 二、具体内容 车牌定位车牌字符分割车牌字符识别 三、实验过程 1.车牌定位 具体过程: 1.灰度转换:将彩色图片转换为灰度图像,常见的RGB像素平均…

Java车辆牌照识别

Java车辆牌照识别 大家好,近期想做一个Java的车牌识别功能(借助第三方百度云车牌识别API),大致搜索了一下相关的博客文档,没有看到有相对完整详细的文章,于是准备写一篇稍微详细一点的文章说明&#xff0c…

基于opencv的车牌识别解析与代码

Jeremy Lin HQU 车牌识别太出名了,我也就花几天来了解下这个系统,并结合opencv进行实现。下面是一些介绍: 车辆牌照识别(License Plate Recognition,LPR)技术作为交通管理自动化的重要手段和车辆检测系统的…

基于matlab的车牌识别

20221126 新增 首先说一下这个工程的思路,很多朋友妄想直接拿着工程用,那是不可能的,自己学去叭,我是先将车牌号预处理之后,整个图片干净一点之后,进行每个字符的切割,但是是很投机取巧的方法&a…

车牌识别步骤及部分代码

目录(?)[-] 车牌预处理字符分割归一化处理细化处理字符特征提取神经网络训练车牌图像识别结果测试 1.车牌预处理 车牌预处理过程的好坏直接影响到车牌图像进行后期处理过程,比如车牌字符分割等。车牌预处理也是尽可能的消除噪声,减少后期处理带来的不必…

车牌识别(毕业设计+代码)

简介与效果 用python3opencv3做的中国车牌识别,包括算法和客户端界面,只有2个文件,一个是界面代码,一个是算法代码,点击即可出结果,方便易用! 大致的UI界面如下,点击输入图片&#…