【Python驯化-01】python中set去重数据每次结果不一致问题解决
本次修炼方法请往下查看
🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 免费获取相关内容文档关注:微信公众号,发送 pandas 即可获取
🎇 相关内容视频讲解 B站
🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验。
🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100% 。
📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。
🌵文章目录🌵
- 🎯 1. 基本介绍
- 💡 2. 问题描述
- 🔍 3 解决方案
- 🔍 4. 注意事项
- 🔧 5. 总结
下滑查看解决方法
🎯 1. 基本介绍
Pandas在Python中,set 是一种无序的集合数据结构,它不保留元素的插入顺序。然而,从 Python 3.7 开始,标准的 set 类型被修改为保持插入顺序,这为我们提供了一种新的数据结构 —— Ordered Set。Ordered Set 结合了列表(List)和集合(Set)的特性,即它不允许重复元素,同时保持元素的添加顺序。
💡 2. 问题描述
通常我们使用set,在python中都是用来对数据进行过滤去重操作,但是有时候我们需要每次运行python文件保持set去重后结果都是一致的,具体为,如果训练一个模型对数据进行编码,预测文件如果在同一个文件里面,这个时候就需要保持每次运行的结果是一致的,如果用set则会出现每次运行的结果不一致问题,从而会导致我们的编码结果不对,具体的例如如下所示:
对于代码1.py:
a = ['B-Cause', 'i-Cause', 'c-Cause', 'B-Cause', 'd-Cause', 'B-Cause']
print(set(a))
我们在vscode中的terimeral里面执行一次代码:python 1.py,结果为:
我们使用相同的操作vscode中的terimeral里面执行一次代码:python 1.py,结果为:
从上可以看出我们使用set去重数据,里面每次都是无序且没有规律的
,因此为了使得每次的结果都保持一个顺序我们需要将其进行固定的话set函数不能解决上面的问题;
🔍 3 解决方案
在python3.7以后,有一个ordered set集合,对于每次处理的数据逻辑有一套规则,因此,即使每次运行的结果去重之后的顺序也是一样的,具体的使用如下所示:
安装相关的包:pip install ordered-set,修改上面的代码为:
from ordered_set import OrderedSet
a = ['B-Cause', 'i-Cause', 'c-Cause', 'B-Cause', 'd-Cause', 'B-Cause']
print(OrderedSet(a))
运行上述代码几次的结果如下所示:
可以看到这样我们每次运行的去重结果的顺序都保持一致了,。
🔍 4. 注意事项
对上述的各个函数在使用的过程中需要注意的一些事项,不然可能会出现error,具体主要为:
- 虽然从 Python 3.7 开始,set 保持了元素的插入顺序,但这并不意味着它是一个线程安全的容器。在多线程环境中使用时需要注意。
- Ordered Set 依然不允许重复元素。如果尝试添加已存在的元素,将不会报错,但元素也不会被重复添加。
🔧 5. 总结
Ordered Set 是 Python 中一个非常有用的数据结构,它结合了集合的独一无二性和列表的有序性。从 Python 3.7 开始,我们可以直接使用内置的 set 来实现 Ordered Set 的功能,这使得我们在处理需要保持元素顺序的场景时更加方便。希望这篇博客能够帮助你更好地理解 Ordered Set 的概念和应用。