什么是Hash算法
散列算法(Hash Algorithm),又称哈希算法,杂凑算法,是一种从任意文件中创造小的数字「指纹」的方法。Hash算法就是一种以较短的信息来保证文件唯一性的标志,这种标志与文件的每一个字节都相关,而且难以找到逆向规律。
哈希算法(Hash Algorithm)是一种将任意长度的消息映射为固定长度的消息摘要(Message Digest)的算法。
特点
- 确定性:对于相同的输入数据,哈希算法会生成相同的哈希值。
- 不可逆性:无法从哈希值中推导出原始的输入数据。
- 唯一性:不同的输入数据生成的哈希值应尽可能不同。
- 散列性:即使输入数据仅有微小的变化,生成的哈希值应该有很大的差异。
Hash 算法碰撞
稍微想一下就可以发现,既然输入数据长度不固定,而输出的哈希值却是固定长度的,这意味着哈希值是一个有限集合,而输入数据则可以是无穷多个,那么建立一对一关系明显是不现实的。所以“碰撞”是必然会发生的,所以一个成熟的哈希算法会有较好的抗冲突性,同时在实现哈希表的结构时也要考虑到哈希冲突的问题。
应用
Hash 算法有哪些
常见 Hash 算法有 MD5 和 SHA 系列,目前 MD5 和 SHA1 已经被破解,一般推荐至少使用 SHA2-256 算法。需要注意的是,由于哈希算法的不可逆性,哈希值一旦生成就无法恢复原始数据,因此在使用哈希算法时需要谨慎考虑数据的保密性和完整性。
领域
哈希算法广泛应用于密码学、数据完整性校验、数字签名、数据分片等领域,例如:
- 数字签名:将原始数据的哈希值与签名一起存储,以验证签名的完整性和正确性。
- 密码存储:将用户密码的哈希值存储在数据库中,以避免直接存储明文密码,提高安全性。
- 数据完整性校验:将原始数据的哈希值与传输过程中的哈希值进行比对,以判断数据是否被篡改。
- 数据分片:将原始数据分成若干个块,对每个块分别计算哈希值,以便快速检测数据块的正确性。
参考
Hash 算法-知乎
hash算法详解