[基础知识] 霍夫曼编码

article/2025/9/24 16:13:34

来源:Reducible
内容整理:张志宇
该视频详细讲解了霍夫曼编码提出的思路历程。

目录

  • 故事背景

  • 思路历程

    • 通信系统示意

    • 衡量信息量

    • 编码和熵的关系

    • 香农-冯诺编码

    • 霍夫曼的改进

故事背景

1951 年,麻省理工学院的一名研究生 David Huffman 在 Robert Fano 的信息论课程上名列前茅。Fano 教授让学生们在期末考试和学期论文间做出选择,年轻的 Huffman 在一开始就选择了学期论文。论文的题目如图 1 所示,给定一组数字或符号,找到最有效的方法来使用二进制码表示它们。

9928f231a3e334d99ee76a2b9acbbc66.png
图 1 Huffman 的学期论文题目

在基础层面上,这是一个数据压缩问题。事实上你在计算机上看到的文本和图像本质上都是一组字母、数字或符号,如果将其归结为最简单的表示形式,那么它们其实都是一组 0 和 1 的组合,每个标准的数据类型都有一个标准的位表示。这个问题的本质是将它们压缩成尽可能少的位数。这是一个自计算出现以来就存在的问题,但 Fano 没有告诉学生的是,这在当时是信息论和数据压缩领域的一个未解决的问题。Huffman 在研究生时解决了这个问题,他的解决方案就是大名鼎鼎的霍夫曼编码算法。

0adc66ee181b8ceae0e6e109e148e877.png
图 2 数据压缩问题

思路历程

通信系统示意

在一个通信系统中,我们通常有一个信息发送方和信息接受方。发送方想要通过网络向接受方发送一些原始信息,但在网络中唯一有意义的信息是二进制比特。因此,发送方必须根据符号和二进制代码间的某种映射对原始信息进行编码。而接收方需要对二进制代码进行解码以恢复原始信息。

e758423d060782ffccbb33494cc586e5.png
图 3 通信系统示意图

编码方法一般针对从原始信息到二进制码的映射进行优化,从原始信息到二进制码的映射有一些内在要求。一是每个符号必须被映射到唯一的二进制码,二是接收方必须能够准确解码出原始信息。霍夫曼编码算法完全符合这些要求。

衡量信息量

对数据进行压缩时,我们需要考虑一种平衡。如果使用太多的比特表示符号,那么会导致冗余;如果使用太少的比特表示,则会导致信息丢失,因此最优的无损压缩算法应该在两者之间找到平衡。那么我们首先需要知道在不丢失原始信息的情况下,最大的压缩率是多少。对于这个问题,我们可以理解为,需要找到在原始信息中包含的真正的信息量是多少。那我们如何衡量信息量的多少呢?

51c50b5038b33c060b1a32f8fbd456f8.png
图 4 如何衡量信息量

一句话中包含的信息量与文字的长度并没有直接的关联。如图 5 所示,对于这两句话来说,显然在沙哈拉沙漠下雪所包含的信息量更大,因为在沙漠下雪的概率极小。因此可以想到,事件相关的信息量与事件发生的概率有很大的关系。

c7e17d58e65da7b7707267365f02ff4d.png
图 5 信息量例子

香农根据信息的性质总结了四个定律:

  • 信息量的大小跟事件发生的概率反相关

  • 信息量永远大于等于 0,因为事件的发生不会导致信息损失

  • 如果一件事发生的概率是 100%,那么它不包含任何信息量

  • 如果两个不相关事件被分别观察到,那么它包含的信息量应该是这两个事件单独信息量的和

香农根据这四个定律给出了自信息的定义。当信息以 bit 为单位时,log 函数的底数取 2。

10e175c8af0931ab97c5204cb32c51c9.png
图 6 自信息定义

但香农更伟大的贡献在于将自信息推广到了更广的分布上,给出了信息熵的概念,也就是著名的香农定理。香农定理作为信息论的基础,给出了衡量信息量的标准公式。

b6c906313aea5cf1ddfe9dd891b7f168.png
图 7 香农定理

编码和熵的关系

当衡量不同编码方式的性能时,我们需要计算不同编码方式的平均字符长度。在信息论中,我们通常将符号编码的长度根据符号出现的概率进行加权求和得到平均的符号长度。香农发现,无论对符号进行哪种方式的无损压缩编码,它的长度总是大于等于信息熵,这就是香农的源编码定理。

5239a9f94440a012a2810e983060d2f5.png
图 8 香农源编码定理

香农-冯诺编码

香农-冯诺编码首先对符号按照概率进行升序排列。然后找到最好的分割方法将符号分为两组,使得两组的符号概率和尽可能接近。之后对每个组进行递归划分,直到每个符号都被单独分为一组。

d64973fea2879cb8365e04d2e0f1bccf.png
图 9 香农-冯诺编码分组

分完组之后,编码就变得很简单了。从头部向下,如果向左,那么对符号编码添加 0,向右走则添加 1,最终可以得到所有符号的二进制编码。而且对于这个树形图的表示,在解码端是不会存在歧义的。

18511bb8c721b51d77ea079c1db181e4.png
图 10 香农-冯诺编码树形图

霍夫曼的改进

但是香农-冯诺编码并不总是最优的,在思考最小化平均符号长度时,可以想到,两个最不可能出现的符号应该出现在二叉树的最底部,也就是编码长度最长的地方。这符合我们的直觉,那就是最不常出现的符号应该具有更长的编码长度。因此我们可以想到,先将两个最不可能出现的符号放在最底部去构建一个二叉树,然后将这个二叉树的根节点视作一个新的符号节点,该符号节点的概率是两个子节点的和。然后对剩余的符号节点做相同的操作,直到构建出一个完整的二叉树,这就是霍夫曼编码。

41b1a18e80991c0242e36e304755aebb.png
图 11 霍夫曼的改进1
41532e4f9a5c7e82138ac1c5c868d4eb.png
图 12 霍夫曼的改进2

附上视频:


▼扫描下图二维码或点击阅读原文

了解音视频技术大会更多信息

50c3d57fbf787990c5c4673a951122da.png

喜欢我们的内容就点个“在看”吧!4834d96399827c682209c82f6ea87470.gif


http://chatgpt.dhexx.cn/article/iMrxLkDH.shtml

相关文章

数据结构【二】:霍夫曼编码

霍夫曼编码(Huffman Coding)是可变长编码(VLC)的一种。本质上使用变长编码表对源符号进行编码,通过评估源符号出现概率的方法进行分类,将出现几率较高的源字符使用较短的编码,出现几率较低的源字…

霍夫曼树——霍夫曼编码

霍夫曼编码 基本介绍 霍夫曼编码是一种编码方式,属于一种程序算法霍夫曼编码是霍夫曼树在通讯领域的经典应用之一霍夫曼编码广泛用于数据文件的压缩,压缩率通常在20% 到90%,通常数据的重复率越高,那么压缩率就越高霍夫曼编码是可…

【数据结构】图解霍夫曼编码,看了就能懂

今天来给大家普及一下霍夫曼编码(Huffman Coding),一种用于无损数据压缩的熵编码算法,由美国计算机科学家大卫霍夫曼在 1952 年提出——这么专业的解释,不用问,来自维基百科了。 说实话,很早之前…

霍夫曼编码原理以及代码实现

霍夫曼编码压缩能够实现对于自然语言文件空间大幅压缩。对于普通的文本文件字符,简单起见,如果字符为ASCII,则文本中的每个字符使用7bit来表示,如果文本中有大量的重复相同序列,使用ASCII编码来保存存储会造成大量的空…

霍夫曼编码(huffman coding) (java实现)

文章目录 一、浅谈赫夫曼编码二、获取赫夫曼编码1.获取字符出现的次数2.创建赫夫曼树3.指定编码 三、代码实现1.指定编码代码2.完整代码 总结 提示:以下是本篇文章正文内容,下面案例可供参考 一、浅谈赫夫曼编码 赫夫曼编码(Huffman Coding)&#xff0c…

霍夫曼树:霍夫曼编码(Huffman Tree:Huffman Coding)

一、简介 霍夫曼树常处理符号编写工作。根据整组数据中符号出现的频率高低,决定如何给符号编码。如果符号出现的频率越高,则给符号的码越短,相反符号的号码越长。 相关术语 路径:从书中一个节点到另一个节点之间的分支构成这两个…

霍夫曼编码

霍夫曼在1952年提出了霍夫曼编码,霍夫曼编码是一种无损的统计编码方法,利用信息符号概率分布特性来改编字长进行编码。适用于多元独立信源。霍夫曼编码对于出现概率大的信息符号用字长小的符号表示,对于出现概率小的信息用字长大的符号代替。…

霍夫曼(Huffman)编码算法详解之C语言版

一、Huffman编码 霍夫曼(Huffman)树是一类带权路径长度最短的二叉树树。Huffman树的一个非常重要的应用就是进行Huffman编码以得到0-1码流进行快速传输。 在电报收发等数据通讯中,常需要将传送的文字转换成由二进制字符0、1组成的字符串来传输。为了使收发的速度提…

哈夫曼编码

哈夫曼编码 概念前缀码的二叉树及权值哈夫曼编码的设计思想 实例伪代码 概念 哈夫曼编码是一种字符编码方式,是可变长编码的一种,1952年提出,依据字符在文件中出现的频率来建立一个用0,1串表示各字符,使平均每个字符的码长最短的…

图像处理—霍夫曼编码

图像压缩编码是专门研究图像数据压缩的技术,就是尽量减少表示数据图像所需要的数据量。 本章主要介绍图像压缩编码的基础知识,重点讲解常用的图像压缩编码方法,如霍夫曼编码、香农编码、算术编码、行程编码和预测编码及编码方法的MATLAB实现&…

哈夫曼编码(理解)

基础理解 什么是哈夫曼树(Huffman Tree) 给定N个带权值的叶子节点,如何构造出一个带权路径最小的二叉树? 在数据结构理论中,哈夫曼树又称为最优树,相关的知识点还有哈弗曼编码等。在正式介绍哈夫曼树之前…

学弟学妹们,学会霍夫曼编码后,再也不用担心网络带宽了!

CSDN 的学弟学妹们,大家好,我是沉默王二。 今天来给大家普及一下霍夫曼编码(Huffman Coding),一种用于无损数据压缩的熵编码算法,由美国计算机科学家大卫霍夫曼在 1952 年提出——这么专业的解释&#xff…

哈夫曼编码详解

一:基本介绍 哈夫曼编码也翻译为 赫夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式, 属于一种程序算法 赫夫曼编码是赫哈夫曼树在电讯通信中的经典的应用之一。 赫夫曼编码广泛地用于数据文件压缩。其压缩率通常在20%&#xff5…

赫夫曼编码

一 基本介绍 1 赫夫曼编码也翻译为哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式, 属于一种程序算法。 2 赫夫曼编码是赫哈夫曼树在电讯通信中的经典的应用之一。 3 赫夫曼编码广泛地用于数据文件压缩。 其压缩率通常在20%~9…

哈夫曼编码(Huffman Coding)原理详解

哈夫曼编码 哈夫曼编码,又称为哈夫曼编码(Huffman Coding) 是一种可变长编码( VLC, variable length coding))方式,比起定长编码的 ASCII 编码来说,哈夫曼编码能节省很多的空间,因…

霍夫曼编码详解

本专栏包含信息论与编码的核心知识,按知识点组织,可作为教学或学习的参考。markdown版本已归档至【Github仓库:information-theory】,需要的朋友们自取。或者公众号【AIShareLab】回复 信息论 也可获取。 文章目录 霍夫曼编码最佳…

霍夫曼编码(Huffman Coding)

霍夫曼编码(Huffman Coding)是一种编码方法,霍夫曼编码是可变字长编码(VLC)的一种。 霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用…

Typecho 博客美化

以前用typecho博客,现在学生服务器到期了,先记录到csdn上,以后工作有钱了,再租个服务器写博客:) 代码高亮 https://www.typechodev.com/plugin/482.html 天气功能 使用心知天气带的插件就可以轻松实现了。 https://www.seniverse…

Hexo博客之博客美化

https://lqgjava.github.io/2019/08/24/Hexo博客之博客美化/ 只需阅读这一篇文章,就可以让你的博客变得丰富多彩,有添加卡通人物,添加鼠标点击爱心,添加鼠标指针样式 添加彩色滚动变换、添加背景音乐、添加动态彩带等&#xff0…

CSDN博客美化

排列博客分类 管理博客-分类专栏下修改 双击分类名称,即可编辑,输入“#”“空格”“分类名称”可将一级分类改成二级分类。 显示的效果 分类图标设置 编辑-设置图标,可以这里找阿里素材库 效果图