Python hashlib模块 – BuildCodePro

Python hashlib模块详解

编程小白的哈希加密简明指南 – 用通俗语言讲解Python加密哈希功能

什么是哈希(Hash)？

哈希就像数据的”指纹”或”数字摘要”，它可以将任意长度的数据（文本、文件等）转换成一个固定长度的字符串。哈希函数有这些特点：

唯一性：相同数据产生相同哈希值，不同数据产生不同哈希值
不可逆性：无法从哈希值还原原始数据（像碎纸机一样）
雪崩效应：原始数据微小变化会导致哈希值巨大变化
固定长度：无论输入多大，输出长度是固定的

实际应用：用于验证文件完整性（下载文件后检查哈希值）、密码存储（存储哈希而非明文密码）、数字签名等。

hashlib模块基本使用

1. 导入模块

import hashlib

2. 创建哈希对象

选择一种哈希算法创建对象：

                hash_object = hashlib.md5() # 旧算法，不推荐用于安全场景

                hash_object = hashlib.sha256() # 常用安全算法

3. 更新数据

使用update()方法添加要哈希的数据：

                hash_object.update(b”Hello, World!”) # 注意：参数必须是字节类型(byte)
            

可以多次调用update()，相当于把所有数据拼接起来再进行哈希。

4. 获取哈希值

两种方式获取哈希结果：

                # 获取十六进制字符串形式的哈希值

                hex_digest = hash_object.hexdigest()

                print(hex_digest) # 输出类似: a591a6d40bf420404a011733cfb7b190d62c65bf0bcda32b57b277d9ad9f146e

                # 获取原始二进制形式的哈希值

                binary_digest = hash_object.digest()

                print(binary_digest) # 输出类似: b’\xa5\x91\xa6\xd4\x0b\xf4 @J\x01\x173\xcf\xb7\xb1\x90\xd6,e\xbf\x0b\xcd\xa3+W\xb2w\xd9\xad\x9f\x14n’

重要提示：所有传入哈希对象的数据必须是字节(bytes)类型。如果是字符串，需要使用encode()方法转换："text".encode('utf-8')

常用哈希算法比较

MD5 不安全

生成128位（16字节）哈希值

常用于文件校验，但因存在碰撞漏洞不应再用于安全场景

SHA1 不安全

生成160位（20字节）哈希值

曾广泛使用但现已发现漏洞，Git中仍在使用

SHA256 安全

生成256位（32字节）哈希值

比特币和许多安全应用的首选算法

SHA512 安全

生成512位（64字节）哈希值

更长的哈希值，提供更高的安全性

BLAKE2 安全

比SHA系列更快、更安全

有BLAKE2s（较快）和BLAKE2b（较安全）两种变体

算法名称	输出长度	安全性	应用场景
MD5	128位	❌ 不安全	文件完整性校验
SHA1	160位	❌ 不安全	Git版本控制
SHA224	224位	✅ 安全	一般用途
SHA256	256位	✅ 安全	区块链、密码存储
SHA384	384位	✅ 安全	高安全要求
SHA512	512位	✅ 安全	极高安全要求
BLAKE2s	最多256位	✅ 安全	高性能需求
BLAKE2b	最多512位	✅ 安全	高安全高性能

提高安全性：加盐(Salting)

直接对密码进行哈希是不够安全的，黑客可以使用”彩虹表”进行破解。加盐就是在密码前后添加随机字符串再进行哈希：

                import hashlib

                import os

                # 生成随机盐值（通常16字节）

                salt = os.urandom(16)

                # 密码

                password = “my_secure_password”.encode(‘utf-8’)

                # 加盐并哈希

                salted_password = salt + password

                hash_object = hashlib.sha256(salted_password)

                password_hash = hash_object.digest()

                # 存储时需要同时存储盐值和哈希结果

                stored_data = salt + password_hash

为什么加盐？：即使两个用户使用相同密码，由于盐值不同，生成的哈希值也不同，防止彩虹表攻击。

重要提示：对于存储用户密码，使用hashlib.pbkdf2_hmac或专门密码哈希函数如bcrypt更安全。

文件哈希计算

计算文件哈希值可以验证文件完整性（是否被篡改）：

                def calculate_file_hash(filename, algorithm=“sha256”):

                    # 创建哈希对象

                    hash_obj = hashlib.new(algorithm)

                    with open(filename, “rb”) as f:

                        # 分批读取文件，避免大文件占用内存

                        for chunk in iter(lambda: f.read(4096), b””):

                            hash_obj.update(chunk)

                    return hash_obj.hexdigest()

                # 使用示例

                file_hash = calculate_file_hash(“document.pdf”)

                print(f”SHA256: {file_hash}”)

实际应用：下载软件时，官方网站通常会提供文件的哈希值，你可以计算下载文件的哈希值并与官方提供的比对，确保文件未被篡改。

完整代码示例

                # -*- coding: utf-8 -*-

                import hashlib

                import os

                # 1. 基本字符串哈希

                def simple_hash_example():

                    data = “Python hashlib很棒！”.encode(‘utf-8’)

                    # 使用不同算法

                    md5_hash = hashlib.md5(data).hexdigest()

                    sha256_hash = hashlib.sha256(data).hexdigest()

                    blake2_hash = hashlib.blake2b(data).hexdigest()

                    print(f”原始数据: {data}”)

                    print(f”MD5: {md5_hash}”)

                    print(f”SHA256: {sha256_hash}”)

                    print(f”BLAKE2b: {blake2_hash}”)

                # 2. 加盐的密码哈希

                def salted_password_hash(password):

                    salt = os.urandom(16)  # 生成16字节随机盐

                    salted_pwd = salt + password.encode(‘utf-8’)

                    hash_obj = hashlib.sha256(salted_pwd)

                    return salt, hash_obj.hexdigest()

                # 3. 文件哈希验证

                def verify_file_integrity(file_path, expected_hash):

                    file_hash = calculate_file_hash(file_path)

                    if file_hash == expected_hash:

                        print(“文件完整性验证通过！文件未被篡改。”)

                    else:

                        print(“警告：文件哈希值不匹配！文件可能已被篡改或损坏。”)

                if __name__ == “__main__”:

                    # 执行示例

                    simple_hash_example()

                    # 密码哈希示例

                    password = “MySuperSecretPassword123”

                    salt, hashed_password = salted_password_hash(password)

                    print(f”\n密码加盐哈希结果:”)

                    print(f”盐值: {salt.hex()}”)

                    print(f”哈希值: {hashed_password}”)

注意事项与最佳实践

避免使用MD5/SHA1存储密码：这些算法已被证明不安全，使用SHA256或更高级算法
总是加盐：存储密码时一定要使用随机盐值
使用专门密码哈希函数：对于用户密码，建议使用hashlib.pbkdf2_hmac或bcrypt/scrypt算法
处理大文件：使用分块读取（chunk）的方式避免内存不足
编码问题：确保所有字符串都编码为字节(bytes)类型
算法选择：根据需求选择算法 – 文件校验可用MD5，安全相关用SHA256或更高
哈希不是加密：哈希是单向的，不能解密，加密是双向的（加密/解密）

进阶提示：Python 3.11+新增了hashlib.file_digest()方法，可以更高效地计算文件哈希值。