数据分析-Pandas分类数据的操作方法

数据分析-Pandas分类数据的操作方法

数据分析和处理中,难免会遇到各种数据,那么数据呈现怎样的规律呢?不管金融数据,风控数据,营销数据等等,莫不如此。如何通过图示展示数据的规律?

数据表,时间序列数据在数据分析建模中很常见,例如天气预报,空气状态监测,股票交易等金融场景。数据分析过程中重新调整,重塑数据表是很重要的技巧,此处选择Titanic数据,以及巴黎、伦敦欧洲城市空气质量监测 N O 2 NO_2 NO2数据作为样例。

数据分析

数据分析-Pandas如何转换产生新列

数据分析-Pandas如何统计数据概况

数据分析-Pandas如何轻松处理时间序列数据

数据分析-Pandas如何选择数据子集

数据分析-Pandas如何重塑数据表-CSDN博客

实验数据分析处理,股票序列,时间序列,信号序列,有时候表格的数据并不完全是数值类型,也有可能是字符串,或者其他数据,需要做分类处理。pandas如何控制数据分类处理呢?需要配置哪些参数?

分类数据的操作函数

除了min(), max(), mode()函数之外, 分类数据还可以执行以下操作:

例如 value_counts 方法可以统计所有类别出现数量,就算这个列表没有用到:

In [130]: s = pd.Series(pd.Categorical(["a", "b", "c", "c"], categories=["c", "a", "b", "d"]))In [131]: s.value_counts()
Out[131]: 
c    2
a    1
b    1
d    0
Name: count, dtype: int64

DataFrame方法,例如sum 也会显示未使用的类别的求和结果。

In [132]: columns = pd.Categorical(.....:     ["One", "One", "Two"], categories=["One", "Two", "Three"], ordered=True.....: ).....: In [133]: df = pd.DataFrame(.....:     data=[[1, 2, 3], [4, 5, 6]],.....:     columns=pd.MultiIndex.from_arrays([["A", "B", "B"], columns]),.....: ).T.....: In [134]: df.groupby(level=1, observed=False).sum()
Out[134]: 0  1
One    3  9
Two    3  6
Three  0  0

Groupby的mean操作, 在以下情况也能适合于未使用类别:

In [135]: cats = pd.Categorical(.....:     ["a", "b", "b", "b", "c", "c", "c"], categories=["a", "b", "c", "d"].....: ).....: In [136]: df = pd.DataFrame({"cats": cats, "values": [1, 2, 2, 2, 3, 4, 5]})In [137]: df.groupby("cats", observed=False).mean()
Out[137]: values
cats        
a        1.0
b        2.0
c        4.0
d        NaNIn [138]: cats2 = pd.Categorical(["a", "a", "b", "b"], categories=["a", "b", "c"])In [139]: df2 = pd.DataFrame(.....:     {.....:         "cats": cats2,.....:         "B": ["c", "d", "c", "d"],.....:         "values": [1, 2, 3, 4],.....:     }.....: ).....: In [140]: df2.groupby(["cats", "B"], observed=False).mean()
Out[140]: values
cats B        
a    c     1.0d     2.0
b    c     3.0d     4.0
c    c     NaNd     NaN

此外,pivot_table 数据透视表操作:

In [141]: raw_cat = pd.Categorical(["a", "a", "b", "b"], categories=["a", "b", "c"])In [142]: df = pd.DataFrame({"A": raw_cat, "B": ["c", "d", "c", "d"], "values": [1, 2, 3, 4]})In [143]: pd.pivot_table(df, values="values", index=["A", "B"], observed=False)
Out[143]: values
A B        
a c     1.0d     2.0
b c     3.0d     4.0

以上代码只是一个简单示例,示例代码中的表达式可以根据实际问题进行修改。

后面介绍下其他的展示形式。

觉得有用 收藏 收藏 收藏

点个赞 点个赞 点个赞

End

GPT专栏文章:

GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案

GPT实战系列-LangChain + ChatGLM3构建天气查询助手

大模型查询工具助手之股票免费查询接口

GPT实战系列-简单聊聊LangChain

GPT实战系列-大模型为我所用之借用ChatGLM3构建查询助手

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(二)

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(一)

GPT实战系列-ChatGLM2模型的微调训练参数解读

GPT实战系列-如何用自己数据微调ChatGLM2模型训练

GPT实战系列-ChatGLM2部署Ubuntu+Cuda11+显存24G实战方案

GPT实战系列-Baichuan2本地化部署实战方案

GPT实战系列-Baichuan2等大模型的计算精度与量化

GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF

GPT实战系列-探究GPT等大模型的文本生成-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/766969.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

xpath中使用正则表达式 及 包含 某 属性值

xpath中使用正则表达式 没想到吧 id 也可以模糊定位 比如有个网站正文部分是: //[id‘el-popover-123456’] 另一个同级别页面的正文是: //[id‘el-popover-456789’] 要抓取这种正文其实可以用xpath: //*[starts-with(id, el-popover-)]或…

八个 C++ 开源项目,帮助初学者进阶成长

对于C初学者来说,参与开源项目是提升编程技能、理解实际项目运作和学习最佳实践的绝佳方式。以下是八个适合C初学者的开源项目,可以帮助你进阶成长: 1. **SFML (Simple and Fast Multimedia Library)** - 网址: [SFML](https://www.sfml-…

DevEco Profiler性能调优工具简介

一、概述 应用或服务运行期间可能出现响应速度慢、动画播放不流畅、列表拖动卡顿、应用崩溃或耗电量过高、发烫、交互延迟等现象,这些现象表明应用或服务可能存在性能问题。造成性能问题的原因可能是业务逻辑、应用代码对系统API的误用、对ArkTS对象的不合理持有导致内存泄露…

隐私计算实训营第三讲-详解隐私计算框架及技术要点

隐私计算实训营第三讲-详解隐私计算框架及技术要点 隐语架构概览 隐语架构是一个多层次、全栈的数据隐私保护和安全计算框架,它从产品应用到硬件加速层面,提供了一个综合性的解决方案。这一架构通过整合隐私保护原语、密态与明文计算引擎,并…

记录开发STM32遇到的卡死问题-串口

背景:以STM32作为主控,广州大彩显示屏显示,主控实时采集数据,串口波特率115200.设置收发频率为50Hz,即单片机每秒发送50帧数据,每秒接收50帧数据,每帧数据大概14字节。 问题:系统长…

部署prometheus 监控k8s集群

目录 1、主机清单 2、拉取镜像 3、服务安装 4、安装prometheus-operator 5、查看custom metrics api 6、获取prometheus端口 7、将 alertmanager-main 、grafana、prometheus-k8s的端口暴露出来 8、再次查看prometheus端口 9、浏览器访问IP:31940 部署k8集群…

隐私计算实训营学习三:隐私计算框架的架构和技术要点

文章目录 一、隐语架构二、产品层三、算法层3.1 PSI与PIR3.2 Data Analysis-SCQL3.3 Federated Learning 四、计算层4.1 混合调度编译-RayFed4.2 密态引擎4.3 密码原语YACL 五、资源管理层六、互联互通七、跨域管控 一、隐语架构 1、完备性:支持多种技术&#xff0…

docker构建镜像时可能会用到的自启动命令

在 Linux 中,各种服务的自启动命令可以通过 systemd 来管理。当你将服务部署到 Docker 中时,可以通过在 Dockerfile 或 Docker Compose 文件中设置相应的命令来实现这些服务在容器启动时自动启动。以下是一些常见的 Linux 服务的自启动命令和在 Docker 中…

基于Springboot的牙科就诊管理系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的牙科就诊管理系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构&#xff0c…

RocketMq 顺序消费、分区消息、延迟发送消息、Topic、tag分类 实战 (消费者) (三)

消费端配置 如下所示:是消费者的配置类,有以下几点需要注意的地方 1、是TargetMessageListener这个监听类(下文会把这个监听类的具体代码贴出来),需要把这个监听类订阅。 2、rocketMqDcProperties.getTargetProperties…

蓝桥杯day9刷题日记

P8649 [蓝桥杯 2017 省 B] k 倍区间 思路&#xff1a;前缀和的题&#xff0c;对k取余相同的数就可以得到k的倍数 #include <iostream> #include <string> using namespace std; long long ans; int n,k; long long q[100010]; long long sum[100010];int main() …

Redis 教程系列之Redis 安全(六)

我们可以通过 redis 的配置文件设置密码参数&#xff0c;这样客户端连接到 redis 服务就需要密码验证&#xff0c;这样可以让你的 redis 服务更安全。 实例 我们可以通过以下命令查看是否设置了密码验证&#xff1a; 127.0.0.1:6379> CONFIG get requirepass 1) "re…

小程序返回webview h5 不刷新问题

我的场景&#xff1a;a、小程序首页-》b、webview h5活动列表-》c、小程序活动详情 c返回b b无法刷新 网上说了好多办法试过了都不行 求解啊 比如 1、先清空URL在赋值 <web-view wx:if"{{url}}" src"{{url}}" bindmessage"onMessage"&g…

【机器学习】k近邻(k-nearest neighbor )算法

文章目录 0. 前言1. 算法原理1.1 距离度量1.2 参数k的选择 2. 优缺点及适用场景3. 改进和扩展4. 案例5. 总结 0. 前言 k近邻&#xff08;k-nearest neighbors&#xff0c;KNN&#xff09;算法是一种基本的监督学习算法&#xff0c;用于分类和回归问题。k值的选择、距离度量及分…

Linux中Oracle数据库启动顺序

首先使用oracle用户登录Linux&#xff0c;用lsnrctl status查看监听状态 1、&#xff1a;进入sqlplus $ sqlplus /nolog SQL> 2&#xff1a;使用sysdab角色登录sqlplus SQL> conn /as sysdba 3&#xff1a;启动数据库 SQL> startup 4&#xff1a;打开Oracle监听 …

微信小程序 - picker-viewer实现省市选择器

简介 本文会基于微信小程序picker viewer组件实现省市选择器的功能。 实现效果 实现代码 布局 <picker-view value"{{value}}" bindchange"bindChange" indicator-style"height: 50px;" style"width: 100%; height: 300px;" &…

OCR研究背景及相关论文分享

光学字符识别&#xff08;Optical Character Recognition&#xff0c;OCR&#xff09;是指使用光学方法将图像中的文字转换为机器可编辑的文本的技术。OCR技术的研究和应用已有数十年的历史&#xff0c;其背景和发展受到多方面因素的影响。 技术需求背景 1.自动化文档处理&am…

【数据分享】2012-2023年全球范围逐年NPP/VIIRS夜间灯光数据

夜间灯光数据是我们在各项研究中经常使用的数据&#xff01;本次我们给大家分享的是2012-2023年全球范围的逐年的NPP/VIIRS夜间灯光数据&#xff0c;数据格式为栅格格式(.tif)。该数据来自于NCEI国家环境信息中心&#xff0c;近期该网站更新了2023年的夜间灯光数据&#xff0c;…

安卓开发button控件的使用

在 Android 开发中&#xff0c;Button 控件用于创建用户可点击的按钮。以下是使用 Button 控件的一般步骤&#xff1a; 1. 在布局文件中添加 Button&#xff1a;打开你的布局文件&#xff08;例如 activity_main.xml&#xff09;&#xff0c;将 Button 控件添加到布局中。可以使…

电脑如何关闭自启动应用?cmd一招解决问题

很多小伙伴说电脑刚开机就卡的和定格动画似的&#xff0c;cmd一招解决问题&#xff1a; CtrlR打开cmd,输入&#xff1a;msconfig 进入到这个界面&#xff1a; 点击启动&#xff1a; 打开任务管理器&#xff0c;禁用不要的自启动应用就ok了