基本原理
在Python的Pandas库中,DataFrame是一个强大的数据结构,用于处理表格数据。Pandas提供了多种方法来筛选DataFrame中的数据,其中使用in
和not in
是模仿SQL查询中IN
和NOT IN
操作的一种方式。在SQL中,IN
用于筛选出在某个列表中的值,而NOT IN
则用于筛选出不在列表中的值。在Pandas中,我们可以通过布尔索引来实现类似的功能。
代码示例
示例1:使用in
进行筛选
假设我们有一个DataFrame df
,包含了员工的姓名和部门信息,我们想要筛选出部门为"IT"或"HR"的员工。
import pandas as pd# 创建示例DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],'Department': ['IT', 'HR', 'Finance', 'IT', 'HR']
}
df = pd.DataFrame(data)# 使用in筛选特定部门
departments = ['IT', 'HR']
filtered_df = df[df['Department'].isin(departments)]
print(filtered_df)
示例2:使用not in
进行筛选
如果我们想要筛选出除了"IT"和"HR"部门之外的所有员工,可以使用not in
。
# 使用not in筛选非特定部门
filtered_df_not_in = df[~df['Department'].isin(departments)]
print(filtered_df_not_in)
示例3:使用in
和not in
结合条件
有时候,我们可能需要同时使用in
和not in
来满足更复杂的筛选条件。
# 同时使用in和not in进行筛选
filtered_df_complex = df[(df['Department'].isin(departments)) & (~df['Name'].isin(['Alice', 'Bob']))]
print(filtered_df_complex)
注意事项
isin()
函数对于大数据集可能会比较慢,因为它需要对每个元素进行检查。- 使用
isin()
时,传入的列表应该是可哈希的,例如列表、元组或集合。 - 确保在布尔索引中使用括号来正确地应用逻辑运算符,如
&
(和)、|
(或)和~
(非)。
结论
通过上述示例,我们可以看到Pandas中的in
和not in
操作可以有效地模仿SQL中的IN
和NOT IN
查询。使用布尔索引,我们可以灵活地对DataFrame进行各种复杂的筛选操作。掌握这些技巧,可以帮助我们更加高效地处理和分析数据。

>
> 【痕迹】QQ+微信朋友圈和聊天记录分析工具1.0.4 (1)纯Python语言实现,使用Flask后端,本地分析,不上传个人数据。
>
> (2)内含QQ、微信聊天记录保存到本地的方法,真正实现自己数据自己管理。
>
> (3)数据可视化分析QQ、微信聊天记录,提取某一天的聊天记录与大模型对话。
>
> **下载地址:https://www.alipan.com/s/x6fqXe1jVg1**
>