学习笔记--霍夫曼树与霍夫曼编码解码

article/2025/9/24 15:59:53

先摘一下百科的说法

        “哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做Huffman编码(有时也称为霍夫曼编码)。

霍夫曼编码应用十分广泛,比如最常见的JPEG中就应用这种方法。霍夫曼编码是基于霍夫曼树的一种编码方式。

霍夫曼树

霍夫曼树又称最优二叉树,是一种带权路径长度最短的二叉树。所谓树的带权路径长度,就是树中所有的叶结点的权值乘上其到根结点的 路径长度(若根结点为0层,叶结点到根结点的路径长度为叶结点的层数)。树的带权路径长度记为WPL= (W1*L1+W2*L2+W3*L3+...+Wn*Ln),N个权值Wi(i=1,2,...n)构成一棵有N个叶结点的二叉树,相应的叶结点的路径长度为Li(i=1,2,...n)。可以证明霍夫曼树的WPL是最小的。比如


构造方式

霍夫曼树的构造方式也是基于这种权重比较进行构造的,具体步骤是:

(1)  根据给定的 n 个权值 {w1,w2, … wn} 构成 n 棵二叉树的集合  F = {T1,T2, … Tn},其中每棵二叉树 Ti 中只有一个权值为 wi 的根结点。
(2)  在 F 中选取两棵根结点权值最小的树作为左、右子树构造一棵新的二叉树,且置新二叉树的根结点的权值为其左、右子树根结点的权值之和。
(3)  在 F 中删除这两棵树,同时将新得到的二叉树加入集合 F 中。

(4)  重复 (2) 和 (3) ,直到 F 中只含一棵树为止。

下面来举个例子~

4 个叶子结点 a、b、c、d,分别带权7、5、2、4。构造流程画图说明一下:





霍夫曼编码

相信通过以上内容,对霍夫曼树有了基本了解,下面开始介绍基于霍夫曼树的编码

我们都知道,计算机是基于电信号通断的二进制数据流信息传输,比如我们要传输一串字符“ABCDEBCDBB”,我们就要用01组合来表示所有的字符,显然该字符串里有5种字符,2^2 < 5< 2^3,所以我们需要至少三位二进制表示所有的字符这样一来表示这串十个字符的信息就要使用10 * 3 = 30个数,再看这串字符,不难发现B,C,D的使用频率很高,那么如果我们提供一种方法使表示信息中常用字符的编码减少,那么整体的编码长度肯定会大大减少。比如如果我们可以用2位来表示B,C,D,即使这样的代价是使用4位编码来区分余下的A,E,那么总编码长度为 2 * 4+8 *2 = 24,相对于30个数的编码有了显著的减少,对于十个字符的信息都能有着显著的成效,那么实际中成千上万的信息肯定会大大减少编码量。

霍夫曼编码就是基于这种思想应运而生,上文中介绍的霍夫曼树节点的权重,就是实际编码中每个字符的出现频率,为了更好地学习霍夫曼编码,首先我们介绍一下前缀编码的概念

若设计的长短不等的编码,满足任一个编码都不是另一个编码的前缀,则这样的编码称为前缀编码。举个例子~

假设 A , B , C , D 前缀编码可以为  0 , 110 , 10 , 111,利用二叉树设计二进制前缀编码如下图

叶子结点表示 A , B , C , D 这 4 个字符左分支表示 ‘0’,右分支表示 ‘1’从根结点到叶子结点的路径上经过的二进制符号串作为该叶子结点字符的编码路径长度为编码长度,证明其必为前缀编码,即依照前缀编码进行判断不会有走错路的多余情况

霍夫曼编码就是根据字符出现频率(次数),映射为叶子节点权重,建立霍夫曼树,设立0/1路径,得到前缀编码的过程,

举个例子~

某通信可能出现 A B C D E F G H 8 个字符,其概率分别为 0.05 , 0.29 , 0.07 , 0.08 , 0.14 , 0.23 , 0.03 , 0.11 ,试设计Huffman编码

过程如下:

设  w = { 5 , 29 , 7 , 8 , 14 , 23 , 3 , 11 }

这样就得到了霍夫曼树~然后我们令左子树为0,右子树为1,

到达每个叶子(字符)的序列(顺序是根节点->...->叶子)就是每个字符的编码啦~




霍夫曼解码过程

解码过程就是编码过程的逆过程,对于确定的一串霍夫曼编码,从根节点开始沿着编码中的二进制顺序找到叶子节点获取字符,应用前缀编码的特性,解码出一个字符又重新开始从根节点进行下一次解码,不存在错误路径或是冗余操作~

霍夫曼编码解码与压缩解压缩

既然霍夫曼编码可以缩短序列,那么我们就可以应用这种编码替代原有的存储码值,实现文本形式文件的压缩与解压缩,由于过程中牵扯的类比较多,涉及基本都是代码的内容,所以另开一篇,有兴趣请移步我的另一篇博文









http://chatgpt.dhexx.cn/article/pEvEumHZ.shtml

相关文章

霍夫曼编码的matlab实现

霍夫曼编码的原理已经有很优秀的介绍博客了&#xff0c;给出现频率高的灰度级分配更短的码字无非就是利用数学中逆序乘积和最小的原理&#xff0c;具体的原理介绍我就不再赘述了。这里给大家分享一下我个人早先实现的霍夫曼编码matlab程序。废话不多说&#xff0c;直接上代码&a…

霍夫曼树和霍夫曼编码以及霍夫曼编码的应用

文章目录 霍夫曼树介绍1.1霍夫曼树的定义1.2霍夫曼树的几个概念1.3构建霍夫曼树的过程1.4代码实现霍夫曼树 霍夫曼编码介绍什么是霍夫曼编码通信领域的应用 字符串压缩1.构造霍夫曼树2.生成赫夫曼树对应的赫夫曼编码表3.通过生成的赫夫曼编码表&#xff0c;返回一个赫夫曼编码 …

霍夫曼编码判断

霍夫曼编码判断 (算法学习) 霍夫曼编码一定是前缀编码&#xff0c;即&#xff0c;没有任何一个编码是另一个编码的前缀。 此外&#xff0c;还需要明白霍夫曼编码构建的树中只有度为0和2的结点&#xff0c;不存在度为1的结点。这与玩全二叉树是不一样的概念&#xff0c;玩全二…

霍夫曼编码和LZ编码

文章目录 一、霍夫曼编码1.概念及编码步骤2.霍夫曼编码例题分析 二、LZ编码1.概念及编码步骤2.LZ编码例题分析 一、霍夫曼编码 1.概念及编码步骤 霍夫曼编码是定长到变长编码&#xff0c;其概率高的符号映射成较短的二进制序列&#xff0c;概率低的符号映射成较长的二进制序列…

[基础知识] 霍夫曼编码

来源&#xff1a;Reducible内容整理&#xff1a;张志宇该视频详细讲解了霍夫曼编码提出的思路历程。 目录 故事背景思路历程 通信系统示意衡量信息量编码和熵的关系香农-冯诺编码霍夫曼的改进 故事背景 1951 年&#xff0c;麻省理工学院的一名研究生 David Huffman 在 Robert F…

数据结构【二】:霍夫曼编码

霍夫曼编码&#xff08;Huffman Coding&#xff09;是可变长编码&#xff08;VLC&#xff09;的一种。本质上使用变长编码表对源符号进行编码&#xff0c;通过评估源符号出现概率的方法进行分类&#xff0c;将出现几率较高的源字符使用较短的编码&#xff0c;出现几率较低的源字…

霍夫曼树——霍夫曼编码

霍夫曼编码 基本介绍 霍夫曼编码是一种编码方式&#xff0c;属于一种程序算法霍夫曼编码是霍夫曼树在通讯领域的经典应用之一霍夫曼编码广泛用于数据文件的压缩&#xff0c;压缩率通常在20% 到90%&#xff0c;通常数据的重复率越高&#xff0c;那么压缩率就越高霍夫曼编码是可…

【数据结构】图解霍夫曼编码,看了就能懂

今天来给大家普及一下霍夫曼编码&#xff08;Huffman Coding&#xff09;&#xff0c;一种用于无损数据压缩的熵编码算法&#xff0c;由美国计算机科学家大卫霍夫曼在 1952 年提出——这么专业的解释&#xff0c;不用问&#xff0c;来自维基百科了。 说实话&#xff0c;很早之前…

霍夫曼编码原理以及代码实现

霍夫曼编码压缩能够实现对于自然语言文件空间大幅压缩。对于普通的文本文件字符&#xff0c;简单起见&#xff0c;如果字符为ASCII&#xff0c;则文本中的每个字符使用7bit来表示&#xff0c;如果文本中有大量的重复相同序列&#xff0c;使用ASCII编码来保存存储会造成大量的空…

霍夫曼编码(huffman coding) (java实现)

文章目录 一、浅谈赫夫曼编码二、获取赫夫曼编码1.获取字符出现的次数2.创建赫夫曼树3.指定编码 三、代码实现1.指定编码代码2.完整代码 总结 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、浅谈赫夫曼编码 赫夫曼编码(Huffman Coding)&#xff0c…

霍夫曼树:霍夫曼编码(Huffman Tree:Huffman Coding)

一、简介 霍夫曼树常处理符号编写工作。根据整组数据中符号出现的频率高低&#xff0c;决定如何给符号编码。如果符号出现的频率越高&#xff0c;则给符号的码越短&#xff0c;相反符号的号码越长。 相关术语 路径&#xff1a;从书中一个节点到另一个节点之间的分支构成这两个…

霍夫曼编码

霍夫曼在1952年提出了霍夫曼编码&#xff0c;霍夫曼编码是一种无损的统计编码方法&#xff0c;利用信息符号概率分布特性来改编字长进行编码。适用于多元独立信源。霍夫曼编码对于出现概率大的信息符号用字长小的符号表示&#xff0c;对于出现概率小的信息用字长大的符号代替。…

霍夫曼(Huffman)编码算法详解之C语言版

一、Huffman编码 霍夫曼(Huffman)树是一类带权路径长度最短的二叉树树。Huffman树的一个非常重要的应用就是进行Huffman编码以得到0-1码流进行快速传输。 在电报收发等数据通讯中&#xff0c;常需要将传送的文字转换成由二进制字符0、1组成的字符串来传输。为了使收发的速度提…

哈夫曼编码

哈夫曼编码 概念前缀码的二叉树及权值哈夫曼编码的设计思想 实例伪代码 概念 哈夫曼编码是一种字符编码方式&#xff0c;是可变长编码的一种&#xff0c;1952年提出&#xff0c;依据字符在文件中出现的频率来建立一个用0,1串表示各字符&#xff0c;使平均每个字符的码长最短的…

图像处理—霍夫曼编码

图像压缩编码是专门研究图像数据压缩的技术&#xff0c;就是尽量减少表示数据图像所需要的数据量。 本章主要介绍图像压缩编码的基础知识&#xff0c;重点讲解常用的图像压缩编码方法&#xff0c;如霍夫曼编码、香农编码、算术编码、行程编码和预测编码及编码方法的MATLAB实现&…

哈夫曼编码(理解)

基础理解 什么是哈夫曼树&#xff08;Huffman Tree&#xff09; 给定N个带权值的叶子节点&#xff0c;如何构造出一个带权路径最小的二叉树&#xff1f; 在数据结构理论中&#xff0c;哈夫曼树又称为最优树&#xff0c;相关的知识点还有哈弗曼编码等。在正式介绍哈夫曼树之前…

学弟学妹们,学会霍夫曼编码后,再也不用担心网络带宽了!

CSDN 的学弟学妹们&#xff0c;大家好&#xff0c;我是沉默王二。 今天来给大家普及一下霍夫曼编码&#xff08;Huffman Coding&#xff09;&#xff0c;一种用于无损数据压缩的熵编码算法&#xff0c;由美国计算机科学家大卫霍夫曼在 1952 年提出——这么专业的解释&#xff…

哈夫曼编码详解

一&#xff1a;基本介绍 哈夫曼编码也翻译为 赫夫曼编码(Huffman Coding)&#xff0c;又称霍夫曼编码&#xff0c;是一种编码方式, 属于一种程序算法 赫夫曼编码是赫哈夫曼树在电讯通信中的经典的应用之一。 赫夫曼编码广泛地用于数据文件压缩。其压缩率通常在20%&#xff5…

赫夫曼编码

一 基本介绍 1 赫夫曼编码也翻译为哈夫曼编码(Huffman Coding)&#xff0c;又称霍夫曼编码&#xff0c;是一种编码方式, 属于一种程序算法。 2 赫夫曼编码是赫哈夫曼树在电讯通信中的经典的应用之一。 3 赫夫曼编码广泛地用于数据文件压缩。 其压缩率通常在20%&#xff5e;9…

哈夫曼编码(Huffman Coding)原理详解

哈夫曼编码 哈夫曼编码&#xff0c;又称为哈夫曼编码&#xff08;Huffman Coding&#xff09; 是一种可变长编码&#xff08; VLC, variable length coding)&#xff09;方式&#xff0c;比起定长编码的 ASCII 编码来说&#xff0c;哈夫曼编码能节省很多的空间&#xff0c;因…