哈希碰撞与生日相同概率

article/2025/3/7 5:26:44

一、哈希碰撞是什么?

所谓哈希(hash),就是将不同的输入映射成独一无二的、固定长度的值(又称"哈希值")。它是最常见的软件运算之一。

如果不同的输入得到了同一个哈希值,就发生了"哈希碰撞"(collision)。

举例来说,很多网络服务会使用哈希函数,产生一个 token,标识用户的身份和权限。


AFGG2piXh0ht6dmXUxqv4nA1PU120r0yMAQhuc13i8

上面这个字符串就是一个哈希值。如果两个不同的用户,得到了同样的 token,就发生了哈希碰撞。服务器将把这两个用户视为同一个人,这意味着,用户 B 可以读取和更改用户 A 的信息,这无疑带来了很大的安全隐患。

黑客攻击的一种方法,就是设法制造"哈希碰撞",然后入侵系统,窃取信息。

二、如何防止哈希碰撞?

防止哈希碰撞的最有效方法,就是扩大哈希值的取值空间。

16个二进制位的哈希值,产生碰撞的可能性是 65536 分之一。也就是说,如果有65537个用户,就一定会产生碰撞。哈希值的长度扩大到32个二进制位,碰撞的可能性就会下降到 4,294,967,296 分之一。

更长的哈希值意味着更大的存储空间、更多的计算,将影响性能和成本。开发者必须做出抉择,在安全与成本之间找到平衡。

下面就介绍,如何在满足安全要求的前提下,找出哈希值的最短长度。

三、生日攻击

哈希碰撞的概率取决于两个因素(假设哈希函数是可靠的,每个值的生成概率都相同)。

  • 取值空间的大小(即哈希值的长度)
  • 整个生命周期中,哈希值的计算次数

这个问题在数学上早有原型,叫做"生日问题"(birthday problem):一个班级需要有多少人,才能保证每个同学的生日都不一样?

答案很出人意料。如果至少两个同学生日相同的概率不超过5%,那么这个班只能有7个人。事实上,一个23人的班级有50%的概率,至少两个同学生日相同;50人班级有97%的概率,70人的班级则是99.9%的概率(计算方法见后文)。

这意味着,如果哈希值的取值空间是365,只要计算23个哈希值,就有50%的可能产生碰撞。也就是说,哈希碰撞的可能性,远比想象的高。实际上,有一个近似的公式。

上面公式可以算出,50% 的哈希碰撞概率所需要的计算次数,N 表示哈希的取值空间。生日问题的 N 就是365,算出来是 23.9。这个公式告诉我们,哈希碰撞所需耗费的计算次数,跟取值空间的平方根是一个数量级。

这种利用哈希空间不足够大,而制造碰撞的攻击方法,就被称为生日攻击(birthday attack)。

四、数学推导

这一节给出生日攻击的数学推导。

至少两个人生日相同的概率,可以先算出所有人生日互不相同的概率,再用 1 减去这个概率。

我们把这个问题设想成,每个人排队依次进入一个房间。第一个进入房间的人,与房间里已有的人(0人),生日都不相同的概率是365/365;第二个进入房间的人,生日独一无二的概率是364/365;第三个人是363/365,以此类推。

因此,所有人的生日都不相同的概率,就是下面的公式。

上面公式的 n 表示进入房间的人数。可以看出,进入房间的人越多,生日互不相同的概率就越小。

这个公式可以推导成下面的形式。

那么,至少有两个人生日相同的概率,就是 1 减去上面的公式。

五、哈希碰撞的公式

上面的公式,可以进一步推导成一般性的、便于计算的形式。

根据泰勒公式,指数函数 ex 可以用多项式展开。

如果 x 是一个极小的值,那么上面的公式近似等于下面的形式。

现在把生日问题的1/365代入。

因此,生日问题的概率公式,变成下面这样。

假设 d 为取值空间(生日问题里是 365),就得到了一般化公式。

上面就是哈希碰撞概率的公式。

六、应用

上面的公式写成函数。


const calculate = (d, n) => {const exponent = (-n * (n - 1)) / (2 * d)return 1 - Math.E ** exponent;
}calculate(365, 23) // 0.5000017521827107
calculate(365, 50) // 0.9651312540863107
calculate(365, 70) // 0.9986618113807388

一般来说,哈希值由大小写字母和阿拉伯数字构成,一共62个字符(10 + 26 + 26)。如果哈希值只有三个字符的长度(比如abc),取值空间就是 62 ^ 3 = 238,328,那么10000次计算导致的哈希碰撞概率是100%。


calculate(62 ** 3, 10000) // 1

哈希值的长度增加到5个字符(比如abcde),碰撞的概率就下降到5.3%。


calculate(62 ** 5, 10000) // 0.05310946204730993

现在有一家公司,它的 API 每秒会收到100万个请求,每个请求都会生成一个哈希值,假定这个 API 会使用10年。那么,大约一共会计算300万亿次哈希。能够接受的哈希碰撞概率是1000亿分之一(即每天发生一次哈希碰撞),请问哈希字符串最少需要多少个字符?

根据上面的公式倒推,就会知道哈希值的最短长度是22个字符(比如BwQ1W6soXkA1PU120r0yMA),计算过程略。

22个字符的哈希值,就能保证300万亿次计算里面,只有1000亿分之一的概率发生碰撞。常用的 SHA256 哈希函数产生的是64个字符的哈希值,每个字符的取值范围是0~9和a~f,发生碰撞的概率还要低得多。

七、参考链接

  • How Long Should I Make My API Key?, by Sam Corcos
  • Birthday problem, by Wikipedia
  • Birthday attack, by Wikipedia

(完)


http://chatgpt.dhexx.cn/article/43fRV8di.shtml

相关文章

密码学系列之:生日攻击

简介 生日攻击其实是一个概率论的问题,也就是说一个看起来很难发生的事情,事实上它发生的概率却很大。这种主观上和事实上的概率差距,让随机攻击成功的几率变的更高,这样的攻击就叫做生日攻击。 生日问题的由来 生日问题也叫做…

linux 清空redis缓存

1,进入目录redis下src目录。 #cd redis-2.8.17/src 2,执行redis-cli文件 #./redis-cli 3,执行命令:flushall,出现OK代表执行成功 #flushall 4,退出命令exit #exit 实例:

【redis】linux服务器清空redis

redis-cli 进入redis命令行 flushall 清除所有 如果报出“NOAUTH Authentication required.”错误,那么需要用密码授权 使用 auth [密码] 就可以继续操作了

redis数据清空脚本

redis服务经常因服务器内存不够用而自动死掉。需要经常连接进去做数据清理后启动服务。 所以写了个脚本每天清理一遍。 echo "flushall" | redis-cli -p 7000 -a password echo "flushall" | redis-cli -p 7001 -a password echo "flushall" |…

docker部署python程序清空redis数据

这里还是要推荐下小编的Python学习群: 823137423,不管你是小白还是大牛,小编我都欢迎 ,不定期分享干货,包括小编自己整理的一份2019年最新的Python资料和0基础入门教程视频,欢迎初学和进阶中的小伙伴。在不忙的时间我会给大家解惑。 docker部署python程序清空redis数据 线…

Windows 清空Redis数据

1.redis安装目录下输入cmd 2.redis-cli -p 端口号 3.flushdb 清除当前数据库缓存 4.flushall 清除整个redis所有缓存

Laravel 清空 Redis 队列

先说问题,我的网站搜索使用的 Laravel Scout Algolia 因为 Algolia 是收费的,免费版有容量限制。免费版应该是如下的限制: 一旦你的 计划超出配额,那么 Laravel 队列就会一直失败。失败他会重试导致 ,队列一直累加、…

教你Redis 如何清空所有数据

这篇文章主要介绍了Redis 如何清空所有数据,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教 Redis 清空所有数据步骤总结 1、打开cmd 命令窗口,切换至Redis 安装目录下的bin文件夹 2、在cmd 命…

lnx的导数证明

https://zhidao.baidu.com/question/524121644.html

MT【80】单调性求函数表达式

提示:$f(f(f(x)-lnx)-ln(f(x)-lnx))1ef(f(x)-lnx),\because f(x)$单调.得: $f(f(x)-lnx)-ln(f(x)-lnx)f(x)-lnx$,可以解出$f(x)ln(x)e$ 转载于:https://www.cnblogs.com/mathstudy/p/7630632.html

C语言:综合题,按x的值计算sinx,cosx,ex,lnx

0<x<10,输出sinx 10<x<20,输出cosx 20<x<30,输出ex 30<x<40,输出lnx x<0或x>40,输出zsdy #include<stdio.h> #include<math.h> int main() {double x;printf("input x");scanf("%lf",&x);if(x>0&am…

怎么用计算机算lnx,lnx等于多少怎么算

lnxloge^x。ln是一个算符&#xff0c;它的意思是求自然对数&#xff0c;即以e为底的对数。e是一个常数&#xff0c;约等于2.71828183&#xff0c;lnx可以理解为ln(x)&#xff0c;即以e为底x的对数&#xff0c;所以也就是求e的多少次方等于x。 以常数e为底数的对数叫做自然对数记…

APP专项测试——弱网测试

1.弱网测试场景 弱网测试思路可以从以上场景考虑。像模拟3G网络&#xff0c;3G、4G、5G、WiFi相互切换&#xff0c;是网络测试的基本场景&#xff1b;弱网或者无网时APP的反应时长、页面呈现、超时时间和超时文案是关乎用户体验的基本场景 2.弱网测试工具 &#xff08;1&…

Android Studio创建安卓虚拟机并测试app

首先&#xff0c;右上角点击AVD Manager。 这个界面就会显示我们已有的安卓虚拟机&#xff0c;要创建新的虚拟机&#xff0c;点击Create Virtual Device。进入下一个界面选择屏幕样式&#xff1a; 接下来是Image选择&#xff0c;为了让下载的东西小一点&#xff0c;我们选择了…

APP兼容测试

兼容性测试一般考虑&#xff1a;手机型号、操作系统、屏幕分辨率、网络、应用兼容、数据格式 一。关于原生系统的兼容&#xff1a; 1. 手机型号&#xff1a;覆盖市场主流机型&#xff08;Android&#xff1a;华为、小米、OPPO、华为.. IOS主流机型&#xff09;兼容性测试本质…

APP性能测试之monkey

APP性能测试之monkey 1 monkey 是做什么的 monkey 是 Android 中的一个命令行工具&#xff0c;由 java 编写&#xff0c;可以运行在模拟器里或实 际设备中。 它向系统发送伪随机的用户事件流(如按键输入、触摸屏输入、手势输入等)&#xff0c;实现 对 APP 进行压力测试。 …

APP内存占用测试

APP内存占用测试 1 主要测试点 空闲状态 切换至后台或者启动后不做任何操作&#xff0c;消耗内存最少。 中强度状态 时间偏长的操作应用。 高强度状态 高强度使用应用&#xff0c;可以跑 monkey 来测试&#xff08;通常用来测试内存泄漏&#xff09;。 内存泄漏 指使…