二、哈希算法和Merkle Tree

article/2025/10/4 19:16:15

章节系列目录:点击跳转

文章目录

  • 哈希算法
    • 哈希函数的定义
    • 可靠哈希函数需满足的要求
    • 哈希函数的主要作用
    • 哈希实际例子
  • Merkle Tree默克尔树
    • 完整性校验的方法
    • 哈希列表 Hash List
    • Merkle Tree 哈希树
    • 总结

哈希算法

哈希函数的定义

  哈希函数:给一个任意大小的数据生成出一个固定长度的数据,作为它的映射。
  你可以把哈希函数想象成“搅拌机”,一堆数据丢进去出来一段长度固定的16进制的数值就叫哈希值

可靠哈希函数需满足的要求

一个可靠的哈希算法要满足如下三点

1.安全,给定数据 M 容易算出哈希值 X ,而给定 X 不能算出 M ,或者说哈希算法应该是一个单向算法。
2.独一无二,两个不同的数据,要拥有不相同的哈希。
3.长度固定,给定一种哈希算法,不管输入是多大的数据,输出长度都是固定的。

  如果哈希的长度是固定的,也就是取值范围是有限的,而输入数据的取值范围是无限的,所以总会找到两个不同的输入拥有相同的哈希。所以哈希函数的安全性是相对的。如果出现了两个不同输入有相同输出的情况,就叫碰撞(collision) 。不同的哈希算法,哈希位数越多,基本意味着安全级别越高,或者说它的”抗碰撞性“越好。

消息A = 消息B 则 Hash(A) = Hash(B)
逆否命题也成立:Hash(A) ≠ Hash(B) 则消息A ≠ 消息B
而消息A ≠ 消息B 并不能推出 Hash(A) ≠ Hash(B)
逆否命题:Hash(A) = Hash(B) 并不能推出 消息A = 消息B

比如在网上都搜得到的汉字的哈希值有的就是一样的。
“柳柴"与"柴柕” hashCode=851553
“志捘"与"崇몈” hashCode=786017

注意:后续章节我们使用哈希算法验证两者一致性时,就当它是几乎没有碰撞或者几率很小的情况,请大家不要钻这个牛角尖。

哈希函数的主要作用

为了保证哈希的独一无二性,如果数据在存储或者传输过程中有任何改动或者损坏,哪怕只有1bit,它的哈希值就一定会变。

哈希函数的最常见的一个应用就是进行完整性校验( Integrity Check ),也就是检验数据无损坏。

平时所看到的 Digest 摘要,有时候叫 Checksum 校验值,有时候叫 Fingerprint 指纹,其实都是哈希的另一种说法。

哈希实际例子

网站注册登录
  当我们提交用户名密码的时候,用户名被会直接保存到网站的数据库中,但是密码却不是直接保存的,而是先把密码转换成哈希,保存到数据库中的其实是哈希。即使是公司后台管理人员也拿不到用户的密码。这样万一公司数据库泄露了,用户的密码依然是安全的。而当用户自己登录网站的时候,输入密码提交到服务器,服务器上进行相同的哈希运算,只要算出来的哈希值是一样的,就认为你输入的密码是正确的。

  一般来说密码转换成哈希存储有几种处理方式,第一种是在需要哈希的字符串后面加盐,也就是一个无规则字符串。

	......// 盐值不能太简单,加盐也称为加签public static final String SALT = "8qkhfjlrk!@Y%^i]ws"; ....../*** 加盐取摘要,base64编码即可* @param strValue 你需要MD5处理的字符串* @return 处理后的字符串* @throws NoSuchAlgorithmException*/public static String getMD5Str(String strValue) throws NoSuchAlgorithmException {MessageDigest md5 = MessageDigest.getInstance("MD5");return Base64.encodeBase64String(md5.digest((strValue + Constant.SALT).getBytes()));}

第二种是需要MD5处理的字符串,将每个字符加上盐值,而这个盐值,对于每个用户来说都不一样,比如帐号zhangsansalt123,而lisisalt456,盐值最好三位数以上,这样彩虹表也难以破解(密码破解的利器——彩虹表(rainbow table)),即便碰巧破解出盐值,也会让人吐血的发现每个用户盐值salt都不一样。我个人喜欢第二种方式。

........// 加盐后MD5摘要,进行比对// 对前台输入的密码加盐混淆后生成MD5,与保存在数据库中的MD5密码进行比对String md5 = MD5Utils.md5Digest(password, user.getSalt());if (!md5.equals(user.getPassword())) {throw new BussinessException("L002", "密码错误");} else {// 验证通过,登录成功后的逻辑}......../*** 对源数据加盐混淆后生成MD5摘要* @param source 源数据* @param salt 盐值* @return 摘要*/public static String md5Digest(String source, Integer salt) {char[] ca = source.toCharArray();// 字符数组// 对每个字符混淆处理for (int i = 0; i < ca.length; ++i) {ca[i] = (char) (ca[i] + salt); // 每个账户的salt都不同}String target = new String(ca);// 对混淆后的字符进行MD5处理String md5 = DigestUtils.md5Hex(target);return md5;}

https://www.cmd5.com/
网站介绍如下:
  针对md5sha1等全球通用公开的加密算法进行反向查询,通过穷举字符组合的方式,创建了明文密文对应查询数据库,创建的记录约90万亿条,占用硬盘超过500TB,查询成功率95%以上,很多复杂密文只有这个网站才可查询。
  综上,MD5并不安全,所以我们还需要采取加盐的策略,在明文的基础上随机的添加特别难以破解的值。加盐又称为加签,都是加盐签名的意思。

加盐和不加盐对比如下:
比如

    public static void main(String[] args) {// 为了混淆力度更大,建议盐值是3位的整数System.out.println(MD5Utils.md5Digest("test", 0)); // 这里不加盐值}

打印结果:098f6bcd4621d373cade4e832627b4f6
查询该网站数据库可以得出你的字符串就是"test"

但是你加盐之后,比如改为197

    public static void main(String[] args) {// 为了混淆力度更大,建议盐值是3位的整数System.out.println(MD5Utils.md5Digest("test", 197)); // 这里不加盐值}

打印结果:89e89f369e07634fbb2286efffb9492b

你就会发现, 他根本破解不出来,或者不容易破解出来,至少这个数据库未收录。

Merkle Tree默克尔树

  Merkle Tree也叫哈希树,Merkle Tree 就是用来做完整性校验的,所谓的完整性校验,就是检查一下数据有没有损坏或者被恶意篡改。Merkle Tree 的最大的应用场合就是在点对点网络上,Git 版本控制系统,IPFS 协议以及比特币以太坊等等项目

完整性校验的方法

  要实现完整性校验,最简单的方法就是对要校验的整个的数据文件做个哈希运算,把得到的哈希值公布在网上,这样我们把数据下载到手之后,再次运算一下哈希值,如果运算结果相等,就表示我们下载过程中文件没有任何的损坏。如下图

  这种简单的采用哈希的方式做数据运算,比较适合数据本身不做分割且是放在一台服务器上的情况。如果去某个公司网站上去下载他们的一个软件,就会看到公司网站上公布了这个下载包的哈希值,有了这个哈希值,我们就可以放心的去下载这个软件,下载完做一下完整性校验,就知道这个软件没有损坏。甚至可以放心从其他的不可信网站上去下载这个软件包,因为有了校验机制,也一样可以保证这个包是跟官方的包一模一样的。

哈希列表 Hash List

  在点对点网络上,数据往往都是拆分成很多小碎片去下载的,而且其中很多平台可以认为是不稳定或者是不可信的,很有可能因为网络问题导致下载中断,难不成要从头开始重新下载?这时需要有更加巧妙的做法。最简单的方式就是哈希列表(Hash List

  实际点对点网络在传输数据的时候,其实都是把比较大的一个文件切成一个个小的数据块。如果有一个小块数据在传输过程中损坏了, 那我只要重新下载这一个数据块就行了, 不用重新下载整个文件。当然这就要求对每个数据块计算哈希值,所有这些小数据块的哈希值都是兄弟关系,这样大家就组成了一个哈希列表。BT 下载的时候,在下载真正的数据之前,会先下载一个哈希列表的,这个就是所谓的种子文件。有了各个小块数据的 hash 之后,文件就可以从任意的机器上下载了,不用管那些机器是否是安全可信的。

这时有一个问题就出现了,那么多的哈希,我们怎么保证它们本身都是正确地呢?

  我们需要一个根哈希,把每个小块的哈希值拼到一起,然后对整个这个长长的字符串再做一次哈希运算,最终的结果就是哈希列表的根哈希。于是,如果我们能够保证从一个绝对可信的网站,或者从我们的朋友手里拿到一个正确的根哈希,就可以用它来校验哈希列表中的每一个哈希都是正确的,进而可以保证下载的每一个数据块的正确性了。

  Hash List 也就是哈希列表形式,就非常适合在点对点网络上存储的大型数据了。

Merkle Tree 哈希树

  Merkle Tree 本身也算是一个哈希列表,只不过是在这个基础上又引入了树形结构,从而获得了更高的灵活性。
  我们把数据分成小的数据块,然后对每个小的数据块进行哈希。但是往上走并不是直接去运算根哈希,而是把相邻的两个哈希合并成一个字符串,再对这个字符串的哈希,得到一个子哈希,如果最底层的哈希总数是单数,那到最后必然出现一个单身哈希,这种情况就直接对它进行哈希运算,所以也能得到它的子哈希。于是往上推,依然是一样的方式,可以得到数目更少的新一级哈希,到了树根的这个位置,这一代就剩下一个根哈希了,我们把它叫做 Merkle Root 。根哈希有时候也叫主哈希 Master Hash ,也有人叫它顶哈希 Top Hash

  相对于 Hash List,Merkle Tree 的明显的一个好处是可以单独拿出一个分支来(作为一个小树)对部分数据进行校验,这给很多使用场合就带来了哈希列表所不能比拟的灵活和高性能。


Merkle Tree 是涉及到了数据结构中的3个概念:哈希、哈希列表、树。

总结

  单个哈希不能担当大文件在分布式点对点网络上的校验工作,于是我们有了哈希列表的概念。 Merkle Tree 可以认为是哈希列表的一个变体,让哈希列表变得更加灵活高效,因为每次校验都可以单纯拿出树的一个分支来操作。




文章资料参考自nervos网站,中间代码举例为原创


关注、留言,我们一起学习。

----------------------Talk is cheap, show me the code-----------------------

http://chatgpt.dhexx.cn/article/LkIdfXqQ.shtml

相关文章

Android安全启动学习(四):device-mapper-verity (dm-verity)和哈希树

上一篇说AVB内存装不下的较大分区&#xff08;如文件系统&#xff09;可能会使用哈希树&#xff0c;还提到了dm-verity。这篇来看看这两个是啥&#xff1f; dm-verity 1、dm-verity 1、能不能将多个硬盘&#xff0c;映射成一个逻辑的硬盘&#xff0c;那样我们程序就不用关心复…

哈希表与树的介绍

前言 该篇文章&#xff0c;主要带我们认识什么哈希表和树&#xff0c;为我们在研究各个数据结构的实现及扩展算法&#xff0c;有个基本的认识。 哈希表 特点 数组 &#xff1a;寻址容易 &#xff1b;数据连续存储空间链表&#xff1a;插入与删除容易 &#xff1b;放在堆内…

简单哈希树

哈希树 在各种介绍里的都比较抽象&#xff0c;其实没有那么难&#xff0c;这里进行一个最简单的说明。 在将一个数进行哈希的时候&#xff0c;我曾经写过关于哈希的这么些东西&#xff1a;对于数&#xff0c;当一个质数不够用的时候&#xff0c;可以加上第二个质数&#xff0c;…

查找——图文翔解HashTree(哈希树)

引 在各种数据结构&#xff08;线性表、树等&#xff09;中&#xff0c;记录在结构中的相对位置是随机的。因此在机构中查找记录的时需要进行一系列和关键字的比较。这一类的查找方法建立在“比较”的基础上。查找的效率依赖于查找过程中所进行的比较次数。 之前我们介绍的各种…

图文详解哈希树-Merkle Tree(默克尔树)算法解析

2019独角兽企业重金招聘Python工程师标准>>> Merkle Tree概念 Merkle Tree,通常也被称作Hash Tree,顾名思义,就是存储hash值的一棵树。Merkle树的叶子是数据块(例如,文件或者文件的集合)的hash值。非叶节点是其对应子节点串联字符串的hash。[1] 1、Hash Hash是…

图文详解HashTree(哈希树)

引 在各种数据结构&#xff08;线性表、树等&#xff09;中&#xff0c;记录在结构中的相对位置是随机的。因此在机构中查找记录的时需要进行一系列和关键字的比较。这一类的查找方法建立在“比较”的基础上。查找的效率依赖于查找过程中所进行的比较次数。 之前我们介绍的各…

哈希树HashTree(trie树)

引 在各种数据结构&#xff08;线性表、树等&#xff09;中&#xff0c;记录在结构中的相对位置是随机的。因此在机构中查找记录的时需要进行一系列和关键字的比较。这一类的查找方法建立在“比较”的基础上。查找的效率依赖于查找过程中所进行的比较次数。 之前我们介绍的各种…

哈希(Hash)和哈希树(Merkle tree)

哈希函数&#xff08;英语&#xff1a;Hash function&#xff09;又称散列函数&#xff0c;是一种从任何一种数据中创建小的数字“指纹”的方法。散列函数把消息或数据压缩成摘要&#xff0c;使得数据量变小&#xff0c;将数据的格式固定下来。该函数将数据打乱混合&#xff0c…

哈希树总结-java版

目录 哈希树的理论基础 质数分辨定律 余数分辨定理 哈希树简介 查找 删除 优点 缺点 哈希树的java实现 节点 哈希树 哈希树的应用 哈希树的理论基础 质数分辨定律 这个定理可以简单的表述为&#xff1a;n个不同的质数可以“分辨”的连续整数的个数和他们的乘积相等…

哈希树的python实现

一、问题的背景 给定一组商品购买信息&#xff0c;找到商品购买中频繁出现的商品集。比如说&#xff0c;我们有如下的商品交易信息&#xff1a; 市场购物信息 TipItems1Bread, Milk2Bread, Diaper, Beer, Egg3Milk, Diaper, Beer, Coke4Bread, Milk, Diaper, Beer5Bread, Milk,…

哈希列表、哈希链、哈希树

通过哈希算法检验大量数据&#xff08;比如大量文件&#xff09;的一致性时&#xff0c;常见的存储方案&#xff1a; 哈希列表&#xff08;Hash List&#xff09; 原理&#xff1a; 计算每个数据的哈希值&#xff0c;保存为一个列表。记录该列表的哈希值&#xff0c;用于检验…

哈希树

哈希树&#xff1a; 哈希树(HashTree)算法就是要提供一种在理论上和实际应用中均能有效地处理冲突的方法。一般的哈希(Hash)算法都是O(1)的&#xff0c;而且基本是以空间换时间。这很容易导致对存储空间无限制的需求。本文中哈希树(HashTree)算法在实际操作中使用了一些技巧使…

哈希树 (HashTree)

在讲hash树之前首先我们来理解一下质数分辨定理。 什么是质数分辨定理&#xff1f; 什么是质数 &#xff1a; 即只能被 1 和 本身 整除的数。 为什么用质数&#xff1a;因为N个不同的质数可以 ”辨别“ 的连续整数的数量&#xff0c;与这些质数的乘积相同。 百度文库解答&#…

Merkle树介绍

默克尔树&#xff08;Merkle树&#xff09;又叫哈希树&#xff0c;是区块链数据存储运用到的一个重要的技术算法。 简单来说&#xff0c;哈希树&#xff08;默克尔树&#xff09;中&#xff0c;每个节点都标有一个数据块的加密哈希值。哈希树可以用来验证任何一种在计算机中和计…

Merkle Tree(默克尔树)算法解析

Merkle Tree概念 Merkle Tree&#xff0c;通常也被称作Hash Tree&#xff0c;顾名思义&#xff0c;就是存储hash值的一棵树。Merkle树的叶子是数据块(例如&#xff0c;文件或者文件的集合)的hash值。非叶节点是其对应子节点串联字符串的hash。[1] 1、Hash Hash是一个把任意长…

js中的var是什么意思

js中的var是定义变量的意思&#xff0c;使用和不使用var都能定义变量&#xff0c;但是两个变量的作用域不同。 &#xff08;1&#xff09;在函数中和函数外分别用var定义一个变量a&#xff0c;函数外的变量a是全局变量&#xff0c;函数内的变量a是局部变量&#xff0c;所以在函…

python中的var是什么什么的缩写_var是什么意思

展开全部 VAR是英文Video Assistant Referee的缩写&#xff0c;也被称作“视频助理裁判”&#xff0c;由现役裁判员担任&#xff0c;他的职责是通过回放视频向裁e5a48de588b63231313335323631343130323136353331333366303733判员提供信息&#xff0c;协助裁判员纠正改变比赛走…

var 作用域||变量

平常我们在使用js 的时候一般使用var来声明变量&#xff0c;相比于C语言Java当中的声明变量要简单一些&#xff0c;但是简单肯定也会有简单的不好之处。 一般来讲&#xff0c;在函数内部&#xff08;local variable&#xff09;中&#xff0c;js初始化变量加var的为局部变量不加…

第一讲:var的使用

目录 使用var声明变量 不使用var&#xff0c;直接给变量赋值 变量的作用域 全局变量和局部变量的混用 变量提升 总结 javascript中&#xff0c;使用var声明变量&#xff0c;看似简单易学&#xff0c;其实不然。 在我接触的许多编程语言中&#xff0c;如c, c#, vb, java, p…

let与var的区别

前端小白刚学习JavaScript接触到变量的时候可能会有点懵&#xff0c;那就是什么时候该用let&#xff0c;什么时候该用var&#xff0c;这里给大家一个最简单&#xff0c;最明了的答案&#xff0c;看完就能明白。 首先&#xff0c;let是拥有块级作用域的&#xff0c;什么是块级作…