Python Pickle模块 – BuildCodePro

Python Pickle模块完全指南

编程小白的Pickle知识大全 – 用大白话讲解序列化与反序列化

Pickle是Python中用于对象序列化和反序列化的内置模块。简单来说，它可以把Python对象变成字节流（序列化），也可以把字节流还原回Python对象（反序列化）。

一、什么是序列化？

把Python对象 ➡️ 转换为字节流 🌊
方便保存到文件或网络传输

大白话解释：

想象你要把一个乐高玩具邮寄给朋友，你需要先把乐高拆成小块（序列化），放进盒子里邮寄。朋友收到后，再按照说明书把乐高拼回原样（反序列化）。

Pickle就是Python的”乐高拆装工具”！

为什么需要序列化？

保存程序状态：把运行中的对象保存到文件，下次启动时恢复
传输数据：通过网络发送Python对象
缓存数据：存储计算结果节省下次计算时间

二、Pickle的基本用法

1. 序列化（Pickling）

把Python对象变成字节流

                    import pickle

# 创建一个字典对象

data = {

    "name": "张三",

    "age": 25,

    "hobbies": ["编程", "读书", "旅行"]

}

# 序列化并保存到文件

with open("data.pkl", "wb") as file:  # wb表示写入二进制

    pickle.dump(data, file)

# 或者序列化为字节对象

data_bytes = pickle.dumps(data)

2. 反序列化（Unpickling）

把字节流还原为Python对象

                    import pickle

# 从文件加载并反序列化

with open("data.pkl", "rb") as file:  # rb表示读取二进制

    loaded_data = pickle.load(file)

# 从字节对象反序列化

loaded_data = pickle.loads(data_bytes)

print(loaded_data["name"])  # 输出: 张三

三、Pickle能处理哪些对象？

可以直接Pickle的类型：

基本数据类型：int, float, bool, str
数据结构：list, tuple, dict, set
函数和类（只保存名称引用，不保存代码）
类的实例对象（保存属性值）
None, 异常对象

不能直接Pickle的类型：

打开的文件对象
网络连接
数据库连接
线程和进程状态
包含外部系统资源的对象

提示： 对于不能直接Pickle的对象，可以实现特殊方法__getstate__和__setstate__来自定义序列化行为。

四、Pickle的优缺点

优点：

简单易用：几行代码就能实现序列化
支持几乎所有Python对象
高效：二进制格式效率高
Python专属：完美支持Python特性
无需额外安装：Python标准库自带

缺点：

安全问题：可能执行任意代码（后面详解）
Python专属：其他语言无法读取
版本兼容问题：不同Python版本可能不兼容
不适合长期存储：随着代码迭代可能失效

五、重要安全警告！

⚠️ 重要安全警告：永远不要反序列化不受信任的数据！

Pickle在反序列化时会执行任意代码，这可能导致：

远程代码执行（黑客控制你的电脑）
删除文件
安装恶意软件
窃取敏感信息

安全使用建议：

只反序列化自己生成的数据
绝对不要反序列化来自网络的不受信任数据
考虑使用更安全的替代品（如JSON）
如果必须处理外部数据，使用pickletools分析内容

                    # 反序列化攻击示例 - 不要尝试！

malicious_data = b"cos\nsystem\n(S'rm -rf /\'\ntR."

pickle.loads(malicious_data)  # 这会尝试删除所有文件！

六、Pickle常见问题解答

Q: Pickle和JSON有什么区别？

A: JSON是文本格式，跨语言支持，只能处理基本数据类型；Pickle是二进制格式，仅限Python，但能处理几乎所有Python对象。

Q: 为什么反序列化后我的类方法不能用了？

A: Pickle只保存类名，不保存类代码。你需要确保反序列化环境中存在相同的类定义。

Q: 为什么Pickle文件无法在不同Python版本间共享？

A: Pickle格式可能随Python版本变化。建议使用同一版本的Python进行序列化和反序列化。

Q: 如何查看Pickle文件内容？

A: 使用pickletools模块：
import pickletools with open("data.pkl", "rb") as f: pickletools.dis(f)

七、何时使用Pickle？

临时保存程序状态：快速保存/恢复工作进度
进程间通信：在Python进程间传递对象
机器学习模型保存：保存训练好的模型（但许多库有更好的方式）
缓存复杂计算结果

替代方案推荐：

JSON：适用于基本数据结构，需要跨语言支持时
MessagePack：高效的二进制JSON替代品
Protocol Buffers：Google开发的高效数据结构序列化
HDF5：适合科学计算大数据

最佳实践： 优先考虑安全性，只在信任的环境中使用Pickle。对于长期存储和跨语言场景，选择其他序列化方案。

一、什么是序列化？

大白话解释：

为什么需要序列化？

二、Pickle的基本用法

1. 序列化（Pickling）

2. 反序列化（Unpickling）

三、Pickle能处理哪些对象？

可以直接Pickle的类型：

不能直接Pickle的类型：

四、Pickle的优缺点

优点：

缺点：

五、重要安全警告！

安全使用建议：

六、Pickle常见问题解答

七、何时使用Pickle？

替代方案推荐：

发表评论 取消回复

发表评论取消回复