【Python】理解分类变量和连续变量


凡是血肉的东西都难与灵魂一样高扬。
                     


在数据分析和建模过程中,变量可以分为不同的类型,其中最常见的两种类型是分类变量和连续变量。理解这两种变量类型及其处理方法对于数据分析和建模的成功至关重要。本文将介绍分类变量和连续变量的概念,并通过实例说明如何处理和分析这些变量。

分类变量(Categorical Variables)

概念

分类变量是指取值有限且离散的变量,这些取值通常表示不同的类别或分类。分类变量可以进一步分为两类:

  • 名义变量(Nominal Variables):没有内在顺序的分类变量。例如,性别(男、女)、颜色(红、绿、蓝)。
  • 有序变量(Ordinal Variables):具有内在顺序的分类变量。例如,教育水平(小学、中学、大学)、满意度(不满意、一般、满意)。
示例

假设我们有一组顾客数据,包括性别、会员等级和是否购买的情况:

import pandas as pddata = {'CustomerID': [1, 2, 3, 4, 5],'Gender': ['Male', 'Female', 'Female', 'Male', 'Female'],'Membership': ['Silver', 'Gold', 'Gold', 'Silver', 'Bronze'],'Purchased': [1, 0, 1, 0, 1]
}
df = pd.DataFrame(data)
print(df)

输出:

   CustomerID  Gender Membership  Purchased
0           1    Male     Silver          1
1           2  Female       Gold          0
2           3  Female       Gold          1
3           4    Male     Silver          0
4           5  Female     Bronze          1
分类变量处理

在分析和建模过程中,分类变量需要转换为数值形式。常用的方法包括:

标签编码(Label Encoding):将每个类别转换为唯一的整数。
独热编码(One-Hot Encoding):为每个类别创建一个二进制变量(0或1)。
示例代码:

# 标签编码
df['Gender_Label'] = df['Gender'].astype('category').cat.codes# 独热编码
df = pd.get_dummies(df, columns=['Membership'])print(df)

输出:

   CustomerID  Gender  Purchased  Gender_Label  Membership_Bronze  Membership_Gold  Membership_Silver
0           1    Male          1             1                  0                0                  1
1           2  Female          0             0                  0                1                  0
2           3  Female          1             0                  0                1                  0
3           4    Male          0             1                  0                0                  1
4           5  Female          1             0                  1                0                  0

连续变量(Continuous Variables)

概念

连续变量是指可以取无限多个值的变量,这些值通常是数值,并且在一定范围内是连续的。连续变量通常用于测量和计量,例如身高、体重、温度、收入等。

示例

假设我们有一组学生成绩的数据,包括学生ID、数学成绩和英语成绩:

data = {'StudentID': [1, 2, 3, 4, 5],'Math_Score': [88, 92, 75, 85, 90],'English_Score': [78, 85, 82, 90, 88]
}
df = pd.DataFrame(data)
print(df)

输出:

   StudentID  Math_Score  English_Score
0          1          88             78
1          2          92             85
2          3          75             82
3          4          85             90
4          5          90             88
连续变量处理

在分析和建模过程中,连续变量通常需要标准化或归一化,以提高模型的性能和稳定性。常用的方法包括:

  • 标准化(Standardization):将变量转换为均值为0、标准差为1的标准正态分布。
  • 归一化(Normalization):将变量的值缩放到0到1之间。
    示例代码:
from sklearn.preprocessing import StandardScaler, MinMaxScaler# 标准化
scaler = StandardScaler()
df[['Math_Score_Std', 'English_Score_Std']] = scaler.fit_transform(df[['Math_Score', 'English_Score']])# 归一化
scaler = MinMaxScaler()
df[['Math_Score_Norm', 'English_Score_Norm']] = scaler.fit_transform(df[['Math_Score', 'English_Score']])print(df)

输出:

   StudentID  Math_Score  English_Score  Math_Score_Std  English_Score_Std  Math_Score_Norm  English_Score_Norm
0          1          88             78       0.179605          -1.279427         0.619048           0.000000
1          2          92             85       0.985828          -0.240806         1.000000           0.636364
2          3          75             82      -1.793307          -0.702319         0.000000           0.454545
3          4          85             90      -0.179605           0.818819         0.476190           1.000000
4          5          90             88       0.807479           1.403733         0.904762           0.863636

结论

分类变量和连续变量是数据分析和建模中的两种基本类型。分类变量用于表示离散的类别,可以通过标签编码或独热编码转换为数值形式;连续变量用于表示连续的数值,可以通过标准化或归一化进行预处理。理解这两种变量及其处理方法,对于构建高效和可靠的模型至关重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/12368.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DRF 纯净版创建使用

【一】介绍 (1)使用原因 在Django中,contrib 包包含了许多内置的app和中间件,如auth、sessions、admin等,这些app在创建新的Django项目时默认是包含在内的。然而,在开发RESTful API时,可能不需…

jenkis

文章目录 安装插件配置构建超时自动停止 安装插件 在线安装:安装jenkins后,初次启动的时候安装插件 在线安装:插件管理,可选插件中 离线安装:下载插件(.hpi格式) 使用该方法安装插件每次只能安装一个插件,…

基于RTL8710BN与天猫精灵的WIFI智能家居方案

0 项目简介 目的: 语音控制智能家居产品 基于阿里云的物联网产品 基于WiFi技术的嵌入式产品 主要技术: WiFi技术 常用的物联网协议 网络编程 云平台配置 MCU OPENSDK开发 阿里物联网操作系统 硬件: wifi开发板RTL8710BN 天猫精灵…

大数据可视化实验(五):Tableau数据可视化

目录 一、实验目的... 1 二、实验环境... 1 三、实验内容... 1 1)打开数据源... 1 2)进入工作簿... 2 3)字段设置... 2 4)数据筛选... 3 5)绘制条形图... 3 四、思考问题... 4 五、总结与心得体会... 4 一、…

深入理解Qt的信号与槽机制

目录标题 第 1 部分:信号与槽概述1.1 信号与槽的定义1.2 信号与槽的优势 第 2 部分:使用信号与槽2.1 声明信号与槽2.2 定义信号与槽2.3 连接信号与槽2.4 发出信号 第 3 部分:信号与槽的高级用法3.1 自动连接1. 使用 QMetaObject::Connection …

5月14(信息差)

🌍字节携港大南大升级 LLaVA-NeXT:借 LLaMA-3 和 Qwen-1.5 脱胎换骨,轻松追平 GPT-4V Demo 链接:https://llava-next.lmms-lab.com/ 🎄阿里巴巴开源的15个顶级Java项目 ✨ 欧洲在线订餐服务Takeaway.com&#xff1a…

NLP(15)-序列标注任务

前言 仅记录学习过程,有问题欢迎讨论 什么时候应该使用Pooling层: 如果针对每个字做标注,无需;若是针对整句话做分类,则需要pooling NER(数据标注):B/M/E (A/O/P) --左/中/右 边界…

JavaScript中带日期的操作

当我们把日期转换为Number类型的时候,就会变成时间戳(毫秒) const future new Date(2037, 10, 19, 15, 23); console.log(Number(future)); // console.log(future); //与上行代码等效● 所以我们就可以利用时间戳去做点东西,例…

GPT-4o:融合文本、音频和图像的全方位人机交互体验

引言: GPT-4o(“o”代表“omni”)的问世标志着人机交互领域的一次重要突破。它不仅接受文本、音频和图像的任意组合作为输入,还能生成文本、音频和图像输出的任意组合。这一全新的模型不仅在响应速度上达到了惊人的水平&#xff0…

Halcon 初步了解

1.Halcon 概述 Halcon是德国MVTec公司开发的一套完善的机器视觉算法包,也是一款功能强大的视觉处理软件,为工业自动化领域提供了全面的解决方案。它拥有应用广泛的机器视觉集成开发环境,提供了一套丰富的图像处理和机器视觉算法,…

qt cmake加入程序exe图标

可以看到qt自动编译出来的图标是默认的,如下图所示 我想要更改成自定义的图标,比如下方的样子 下边是操作步骤: 图标选择与转化成ico 通过这个网站将正常图片转化成ico:https://www.bitbug.net/创建rc文件 将ico复制到cmakelis…

短视频拍摄+直播间搭建视觉艺术实战课:手把手场景演绎 从0-1短视频-8节课

抖音短视频和直播间你是否遇到这些问题? 短视频是用手机拍还是相机拍?画面怎么拍都没有质感 短视频产量低,拍的素材可用率低 看到别人用手机就能把短视频拍好自己却无从下手 明明已经打了好几盏灯了,但是画面还是比较暗 直播软件参数不会设置,电脑…

纯电动汽车的发展趋势简述

纯电车简介 纯电动汽车是使用电池驱动电动马达而不是传统的内燃机的汽车。它们通常使用电池组储存能量,然后通过电动马达转化为动力来驱动车辆。相比于传统的燃油车,纯电动汽车具有零排放、低噪音、低维护成本等优点,因此在环保和能源效率方…

数据新探:用Python挖掘互联网的隐藏宝藏

Hello,我是你们的阿佑,今天给大家上的菜是——数据存储!听起来枯燥无味?错了!阿佑将带你重新认识数据存储的艺术。就像为珍贵的艺术品寻找完美的展览馆,为你的数据选择合适的存储方式同样重要! …

版本控制:软件开发的基石(一文读懂版本控制)

未经允许,禁止转载! 在现代软件开发中,版本控制是不可或缺的工具。它帮助开发者跟踪和管理代码的变化,协作完成项目,并确保代码的完整性和安全性。本文将基于Git官网的视频“什么是版本控制”来深入探讨版本控制的基本…

Linux实验 vi编辑器的使用与磁盘管理

实验目的: 掌握vi编辑器的启动、保存和退出;掌握vi编辑器的三种工作模式的转换及输入模式下的操作;了解Linux文件系统类型、虚拟文件系统和存储设备的名称;掌握磁盘文件系统的挂载和卸载;掌握常用磁盘操作命令&#x…

C. Sort Zero

题目描述 思路分析: 记住他是要保证这个数列是不降的,也就是说如果某一个位置上的数变成了0,那么这个数前面的部分一定全都是0了,我们用map数组得到每一个数出现的最晚的位置,先从后向前遍历一遍,找出从哪开始出现了递减,然后标记下来结束即可,看看前面的每一个数都要用st标记是…

微信小程序有哪些优势

哈喽,大家好呀,淼淼又来和大家见面啦,如今在移动互联网飞速发展的时代背景下,微信小程序正在逐步成为人们生活中不可或缺的一部分。微信小程序有独特的优势和创新特点,为开发者和用户带来了前所未有的便利和体验。这一…

【Python快速上手(十九)】

目录 Python快速上手(十九)Python3 正则表达式1. 导入re模块2. 基本匹配3. 搜索4. 替换5. 匹配组6. 修饰符7. 特殊字符8. 贪婪与非贪婪匹配9. 自定义字符集10. 转义字符11.正则表达式实例 Python快速上手(十九) Python3 正则表达…

关于nvm管理node版本的一些问题

背景: 基于开发项目的迭代不能做到全部更新,有的项目是vue2.0 有的项目是vue3.0, 那么我们开发的时候就需要对node 进行更新,进而产生因为版本不同导致的错误:由此我们需要一款管理 切换node版本的东西,那就…