离散化及其在 Pandas 中的实现方法

目录

1.什么是离散化?

2.离散化类型

3.示例代码

3.1连续变量离散化

3.2定性变量离散化

4.运行结果

4.1连续变量离散化

4.2定性变量离散化


1.什么是离散化?

        离散化是将连续数据或分类数据转换为离散类别的过程,方便后续的数据分析和机器学习建模。

2.离散化类型

  1. 连续变量离散化:
    • 定义:将连续的数值数据(例如年龄、收入、温度等)转换为离散的区间或类别。
    • 方法:使用区间划分,将连续的数据分割成几个区间,并赋予每个区间一个标签或编码。
    • 示例:将年龄数据分为“年轻”(18-29岁)、“中年”(30-40岁)、“老年”(41-50岁)。
  2. 定性变量离散化(分类编码):
    • 定义:将定性(分类)变量(例如性别、颜色、品牌等)转换为数值型或二进制型变量。
    • 方法:将每个类别转换为一个唯一的数值标签(数值编码)或多个二进制变量(独热编码)。
    • 示例:将水果名称转换为数值编码(apple = 0, banana = 1, cherry = 2)或独热编码(apple = [1, 0, 0], banana = [0, 1, 0], cherry = [0, 0, 1])。

3.示例代码

3.1连续变量离散化

        等宽分箱(Equal-width binning)是一种将连续变量离散化的方法。它将数据范围分成宽度相等的区间(也称为“”)。每个区间包含的数据点数量可能不同,但每个区间的宽度是相同的。

将年龄数据划分为几个年龄段:

import pandas as pd# 创建 DataFrame
data = {'age': [22, 25, 47, 35, 46, 50, 18, 21, 30, 19]}
df = pd.DataFrame(data)
print("原始数据:")
print(df)# 等宽分箱
df['age_bins'] = pd.cut(df['age'], bins=3, labels=["Young", "Middle-aged", "Old"])
print("\n离散化结果(等宽分箱):")
print(df)
"""pd.cut:Pandas 的 cut 函数用于将连续变量(数值数据)分割成离散的区间。这个函数可以创建等宽区间或自定义区间。df['age']:选择 DataFrame 中的 age 列作为需要离散化的数据。bins=3:将 age 列的数据分成三个等宽的区间。labels=["Young", "Middle-aged", "Old"]:为每个区间分配标签。三个区间将分别被标记为“Young”(年轻),“Middle-aged”(中年)和“Old”(老年)。
"""

3.2定性变量离散化

        独热编码(One-Hot Encoding)是一种将分类变量(定性变量)转换为二进制向量的编码方法。每个分类变量的值将被转换为一个二进制向量,该向量在某个位置上为1,其余位置为0。这样可以避免分类变量在数值运算中引入大小关系。

定性变量(qualitative variable)又名分类变量,是统计学中的概念。当观测的个体只能归属于几种互不相容的类别中的一种时,一般用非数字来表达其类别,这样的观测数据称为定性变量。

将水果名称转换为数值编码和独热编码:

import pandas as pd# 创建 DataFrame
data = {'fruit': ['apple', 'banana', 'cherry', 'date', 'apple', 'banana', 'cherry']}
df = pd.DataFrame(data)
print("原始数据:")
print(df)# 数值编码
df['fruit_code'] = df['fruit'].astype('category').cat.codes
print("\n数值编码结果:")
print(df)
"""在这里,fruit_code 列中的数据代表 fruit 列中水果名称的数值编码。具体解释如下:apple 被编码为 0banana 被编码为 1cherry 被编码为 2date 被编码为 3df['fruit']:选择 DataFrame 中的 fruit 列。astype('category'):将 fruit 列的数据类型转换为 Pandas 的分类数据类型(category)。分类数据类型是 Pandas 用于处理有限的离散值的一种类型,通常用于表示字符串分类变量。cat.codes:获取分类数据的编码。每个唯一的分类值(例如 'apple', 'banana', 'cherry' 等)都会被映射为一个唯一的整数代码。这些整数代码存储在 cat.codes 属性中。
"""# 独热编码
df_dummies = pd.get_dummies(df['fruit'], prefix='fruit')
print("\n独热编码结果:")
print(df_dummies)
"""pd.get_dummies:Pandas 的 get_dummies 函数用于执行独热编码(One-Hot Encoding)。独热编码是将分类变量转换为多个二进制(0 或 1)变量的过程。df['fruit']:选择 DataFrame 中的 fruit 列。prefix='fruit':为生成的虚拟变量添加前缀。在生成的虚拟变量的列名中会添加这个前缀,以便识别这些列属于哪个原始变量。
"""# 合并结果
df = pd.concat([df, df_dummies], axis=1)
print("\n合并后的结果:")
print(df)
"""pd.concat:Pandas 的 concat 函数用于连接两个或多个 DataFrame。[df, df_dummies]:将原始 DataFrame df 和独热编码后的 DataFrame df_dummies 作为列表传递给 concat 函数。这里我们将这两个 DataFrame 水平地连接在一起(即按列连接)。axis=1:指定连接操作沿着列轴(轴=1)进行。这意味着新 DataFrame 的列数会增加,而行数保持不变。
"""

4.运行结果

4.1连续变量离散化

原始数据:age
0   22
1   25
2   47
3   35
4   46
5   50
6   18
7   21
8   30
9   19离散化结果(等宽分箱):age      age_bins
0   22         Young
1   25         Young
2   47           Old
3   35  Middle-aged
4   46           Old
5   50           Old
6   18         Young
7   21         Young
8   30  Middle-aged
9   19         Young

4.2定性变量离散化

原始数据:fruit
0    apple
1   banana
2   cherry
3     date
4    apple
5   banana
6   cherry数值编码结果:fruit  fruit_code
0    apple           0
1   banana           1
2   cherry           2
3     date           3
4    apple           0
5   banana           1
6   cherry           2独热编码结果:fruit_apple  fruit_banana  fruit_cherry  fruit_date
0            1             0             0           0
1            0             1             0           0
2            0             0             1           0
3            0             0             0           1
4            1             0             0           0
5            0             1             0           0
6            0             0             1           0合并后的结果:fruit  fruit_code  fruit_apple  fruit_banana  fruit_cherry  fruit_date
0    apple           0            1             0             0           0
1   banana           1            0             1             0           0
2   cherry           2            0             0             1           0
3     date           3            0             0             0           1
4    apple           0            1             0             0           0
5   banana           1            0             1             0           0
6   cherry           2            0             0             1           0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/42045.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

static的理论学习

在说到static之前,需要先明确变量类型: 而在聊到变量类型之前我们可以将变量的两个属性好好学一学 变量的两个属性 作用域(scope): 从内存的角度来看,就是变量存放在栈(stack)中&…

在 JavaScript 中,??(双问号运算符)和 ?.(可选链运算符)区别

在 JavaScript 中,??(双问号运算符)和 ?.(可选链运算符)是两种不同的运算符,用于处理不同的情况: 双问号运算符 (??): ?? 运算符是空值合并运算符(Nullish Coalescing Oper…

Android C++系列:Linux进程(一)

1. 进程概念 我们知道,每个进程在内核中都有一个进程控制块(PCB)来维护进程相关的信 息,Linux内核的进程控制块是task_struct结构体。现在我们全面了解一下其中都有哪 些信息。 进程id。系统中每个进程有唯一的id,在C语言中用pid_t类型表示,其实就是一个非 负整数。进程的…

TypeError: Cannot read properties of null (reading ‘nextSibling‘)

做项目用的Vue3Vite, 在画静态页面时,点击菜单跳转之后总是出现如下报错,百思不得其解。看了网上很多回答,也没有解决问题,然后试了很多方法,最后竟然发现是template里边没有结构的原因。。。 原来我的index.vue是这样…

android.bp 编译 顺序

在Android平台上,.bp 文件是用来定义Android编译系统中的编译规则的。Android编译系统是基于Blueprint的,.bp 文件中定义的规则决定了如何编译和打包应用程序。 在Android编译系统中,.bp 文件中的规则通常是按照它们在文件中的顺序来执行的。…

ELK+Filebeat+Kafka+Zookeeper

本实验基于ELFK已经搭好的情况下 ELK日志分析 架构解析 第一层、数据采集层 数据采集层位于最左边的业务服务器集群上,在每个业务服务器上面安装了filebeat做日志收集,然后把采集到的原始日志发送到Kafkazookeeper集群上。第二层、消息队列层 原始日志发…

conda和pip

1.众所周知,pip的确是python官方(PyPA)推荐的Python软件包安装管理工具,在安装Python软件包时,第一反应应该是pip。正是由于pip是Python官方推荐的“正统”工具,所以pip只专注于Python软件包之间的依赖&…

Matlab手搓线性回归-非正规方程法

原理:wxb,x是输入,求得的结果与真实值y求均方误差。 采用链式法则求导 参数更新,梯度下降法(批量梯度下降) 随机生成数据: m100;生成100个数据,并添加随机噪声 clear; …

基于flask的猫狗图像预测案例

📚博客主页:knighthood2001 ✨公众号:认知up吧 (目前正在带领大家一起提升认知,感兴趣可以来围观一下) 🎃知识星球:【认知up吧|成长|副业】介绍 ❤️如遇文章付费,可先看…

二次元转向SLG,B站游戏的破圈之困

文 | 螳螂观察 作者 | 夏至 2023年是B站游戏的滑铁卢,尽管这年B站的游戏营收还有40多亿,但相比去年大幅下降了20%,整整少了10亿,这是过去5年来的最大跌幅,也是陈睿接管B站游戏业务一年以来,在鼻子上碰的第…

鸿蒙语言基础类库:【@ohos.process (获取进程相关的信息)】

获取进程相关的信息 说明: 本模块首批接口从API version 7开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。开发前请熟悉鸿蒙开发指导文档:gitee.com/li-shizhen-skin/harmony-os/blob/master/README.md点击或者复制转到。…

昇思13天

ResNet50迁移学习 ResNet50迁移学习总结 背景介绍 在实际应用场景中,由于训练数据集不足,很少有人会从头开始训练整个网络。普遍做法是使用在大数据集上预训练得到的模型,然后将该模型的权重参数用于特定任务中。本章使用迁移学习方法对Im…

放弃华为OD,选择最合适而不是最难得

时间不知不觉迈入了七月,五月尝试去重新找一份工作,但释放出来的岗位太少了,难得有进华为OD的机会,还是比较核心的部门,但思来想起,还是放弃了。 如果想去,是很有机会的,一路过关斩…

imx6ull/linux应用编程学习(13) CMAKE

什么是cmake? cmake 工具通过解析 CMakeLists.txt 自动帮我们生成 Makefile,可以实现跨平台的编译。cmake 就是用来产生 Makefile 的工具,解析 CMakeLists.txt 自动生成 Makefile: cmake 的使用方法 cmake 就是一个工具命令&am…

怎么将aac文件弄成mp3格式?把aac改成MP3格式的四种方法

怎么将aac文件弄成mp3格式?手头有一些aac格式的音频文件,但由于某些设备或软件不支持这种格式,你希望将它们转换成更为通用的MP3格式。而且音频格式的转换在现在已经是一个常见且必要的操作。aac是一种相对较新的音频编码格式,通常…

大模型增量预训练新技巧-解决灾难性遗忘

大模型增量预训练新技巧-解决灾难性遗忘 机器学习算法与自然语言处理 2024年03月21日 00:02 吉林 以下文章来源于NLP工作站 ,作者刘聪NLP NLP工作站. AIGC前沿知识分享&落地经验总结 转载自 | NLP工作站 作者 | 刘聪NLP 目前不少开源模型在通用领域具有不错…

G1 和 CMS

1、CMS CMS(Concurrent Mark Sweep,并发标记清除,是为了解决早期垃圾收集器在执行垃圾回收时导致应用程序暂停时间过长的问题而设计的。 CMS的工作流程主要包括以下几个阶段: 初始标记(Initial Mark)&…

一体化运维监控平台:赋能各行业用户运维升级

在当今数字化转型的大潮中,企业IT系统的复杂性和规模不断攀升,对运维团队提出了前所未有的挑战。如何高效、精准地监控和管理IT基础设施,确保业务连续性和稳定性,成为所有企业关注的焦点。美信,自2007年成立以来&#…

el-scrollbar实现自动滚动到底部(AI聊天)

目录 项目背景 实现步骤 实现代码 完整示例代码 项目背景 chatGPT聊天消息展示滚动面板,每次用户输入提问内容或者ai进行流式回答时需要不断的滚动到底部确保展示最新的消息。 实现步骤 采用element ui 的el-scrollbar作为聊天消息展示组件。 通过操作dom来实…

端、边、云三级算力网络

目录 端、边、云三级算力网络 NPU Arm架构 OpenStack kubernetes k3s轻量级Kubernetes kubernetes和docker区别 DCI(Data Center Interconnect) SD/WAN TF 端、边、云三级算力网络 算力网络从传统云网融合的角度出发,结合 边缘计算、网络云化以及智能控制的优势,通…