normalize函数_Pandas 数据处理(一) —— 几个简单函数掌握!

a8b17432ec3bfab7d4e780d6dfad752c.png

对于 Pandas, 接触过 Python 数据处理的小伙伴们都应该挺熟悉的,做数据处理不可或缺的一个程序包,最大的特点高效,本篇文章将通过案例介绍一下 Pandas 的一些基础使用!

1,读入数据

大部分数据都可以用 read_csv() 函数读入,函数中有个 sep 参数,表示数据的分隔符,默认为 “,” (因为大部分 csv 文件数据之间就是以 ,隔开的)

users = pd.read_csv("https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.user",sep = '|')# Read data;
users

原始数据:

197f650b37163ab466083e0aea9f3c9d.png

读取之后的数据:

5e68de1f8151ecd982ee43adc2b870b4.png

除了 read_csv 之外,还有一个常用的 read_table函数也可进行读取操作,用法与 read_csv 相似

2,改变索引值,只展示前几行数据

set_index() 函数用来改变索引值,注意需要加一个参数 replace = True 表示替代; 利用 head(n) 函数表示只展示前 n 行数据

users.set_index('user_id',inplace = True)
users.head(25)

f97711ba9d216e303fa5645f1a226a9e.png

tail(n) 只展示后几行数据;

3,查看数据的行和列的基本信息

1,shape 返回 数据的行数和列数,以 tuple 形式返回;

users.shape# (943, 4)

2,columns 返回数据列名;

users.columns# Index(['age', 'gender', 'occupation', 'zip_code'], dtype='object')

3,index 返回行名;

users.indexInt64Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,...934, 935, 936, 937, 938, 939, 940, 941, 942, 943],dtype='int64', name='user_id', length=943)

4,dtypes 返回各列的数据类型;

users.dtypes# age            int64
gender        object
occupation    object
zip_code      object
dtype: object

4,只选取某列或多列数据

Pandas 提供多种方式可供选择,注:users 表示 Pandas 可处理的DataFrame 格式;

1,users.列名;

users.occupation

2,users[['列名']];

users[['occupation']]

3,users.loc[:,['列名']];

users.loc[:,['occupation']]

3806cc7eb116e5bb57e0c291605682e5.png

同时选取多列数据时

1,users[['列名1','列名2']];

users[['occupation','age']]

2,users.loc[:,['列名1','列名2']];

users.loc[:,['occupation','age']]

dc204fb3e557c08a356c3acb15589e7e.png

5,对列中数据做去重统计

1,列名.nunique() 查看某一列数据有多少个不重复样本;

users.occupation.nunique()# 21

也可以通过这种方式实现

列名.value_counts().count()

users.occupation.value_counts().count()# 21

如果想在1 的基础之上,查看每一个不重复样本在数据列表冲出现了几次,可用下面语句

users.列名.value_counts()

users.occupation.value_counts().head()# student          196
other            105
educator          95
administrator     79
engineer          67
Name: occupation, dtype: int64

6,对数据列表中的数字列做个简单统计

users.describe() 即可实现,默认统计的是 numeric columns(列中数据都是以数值进行展示的)

users.describe()

f853e374e5c6ed9c460bd688acb9f09d.png

当然也可以统计全部列,加一个参数 include = 'all';

users.describe(include = 'all')

389435122af842639aeca266e1603ba6.png

users.列名.describe() 也可以对指定列进行统计:

users.occupation.describe()#count         943
unique         21
top       student
freq          196
Name: occupation, dtype: object

7,对数据做组聚类

groupby 函数对某一列做聚类操作,返回的是 GroupBy 对象;与 5 中方法相似,区别是 groupby 是以聚类后的列为参照,查看其他列的数据统计情况

c =users.groupby("occupation")
c# <pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000017673002788>

GroupBy.head(n) 查看前 n 行数据

c.head(5)

GroupBy.cout() 对每个样本对应其他列进行数据统计

c.count()

GroupBy.size() 统计列中每个样本出现次数

c.size()

还有其它许可操作的函数,

b1e822e90bda455850bf93488e2b0be3.png

详细的可去官网上查询:https://pandas.pydata.org/docs/reference/groupby.html

8,对数据按照某一列进行排序

用到 data.sort_values() 函数,默认从小到大,可以设置 ascending = False 设置为从大到小;

users.sort_values(["age"],ascending = False)

也可以参考多个列进行排序:

users.sort_values(["age","zip_code"],ascending = False)

c5a3c0b5bda6c15dab778b33d84c6b91.png

9,创建新的列

加入新的列比较简单,创建一个 Series (行数需与原列表数据行数保持一致),赋值到源数据即可

data['列名'] = 新创建的 series;下面我利用对 age 中数据进行均一化,把数据存放在新的列 age_normalize 中

1dc3de31c4e307444bb889fd8f258989.png

10,删除指定列

用 drop() 函数可删除源数据中的指定列

users.drop(['age'],axis = 1)

这里的 axis 代表指定要删除的是行还是列,默认为0,0代表的是行,1代表的是列;也可以直接用下面命令:

users.drop(columns =['age'])

d1c7e2ddc64304a924d02da3f115e7df.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/556109.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java Collections.emptyList() 方法的使用及注意事项

Java Collections.emptyList方法的使用及注意事项 一、emptyList() 作用&#xff1a;返回一个空的List&#xff08;使用前提是不会再对返回的list进行增加和删除操作&#xff09;&#xff1b;好处&#xff1a; 1. new ArrayList()创建时有初始大小&#xff0c;占用内存&#…

git 生成多个patch_详解如何使用git 生成patch 和打入patch

平时我们在使用git 管理项目的时候&#xff0c;会遇到这样一种情况&#xff0c;那就是客户使用git 生成patch 给到我们&#xff0c;那我们就需要把客户给到patch 打入到我们的project &#xff0c;基于这样一个场景&#xff0c;我把git 如何生成patch 和如何打入patch 做总结生…

Java集合工具类的一些坑,Arrays.asList()、Collection.toArray()...

Arrays.asList() 使用指南 最近使用Arrays.asList()遇到了一些坑&#xff0c;然后在网上看到这篇文章&#xff1a;Java Array to List Examples 感觉挺不错的&#xff0c;但是还不是特别全面。所以&#xff0c;自己对于这块小知识点进行了简单的总结。 简介 Arrays.asList()…

python saltstack web_saltstack学习-8:web管理页面(halite)

安装halite方法一&#xff1a;失败&#xff0c;待查原因1、安装并启动salt-api yuminstall salt-api –yservice salt-api startchkconfig salt-api on2、安装halite及其依赖文件 yuminstall python-pip –ypipinstall --upgrade pippipinstall -U halitepipinstall cherrypypi…

什么是 NIO? NIO 和 BIO、AIO 之间的区别是什么?NIO主要用来解决什么问题?

1 BIO&#xff0c;NIO&#xff0c;AIO都有什么区别&#xff0c;NIO的原理是什么&#xff1f; BIO BIO&#xff1a;传统的网络通讯模型&#xff0c;就是BIO&#xff0c;同步阻塞IO&#xff0c; 其实就是服务端创建一个ServerSocket&#xff0c; 然后就是客户端用一个Socket去连…

关于页面配色

一、互补色 当两个颜色恰好在色环的两端时&#xff0c;这两个颜色叫做补色。补色搭配能形成强列的对比效果 在线配色工具地址 文字背景色和文字颜色互为补色&#xff0c;文字会很难看清&#xff0c;那么就只使用一种颜色作为主要颜色&#xff0c;其补色用来装点页面 比如&…

axure命令行_Axure变量详解

以前使用Axure只是停留在元件的布局和简单交互事件的设置&#xff0c;使用得非常肤浅&#xff0c;直到现在有时间静下心来重学Axure&#xff0c;才发现函数和变量的牛逼之处。以前在做较复杂交互时&#xff0c;为了实现一个效果吭哧吭哧写了一串命令&#xff0c;而往往函数和变…

一次性说清楚秒验(本机号码一键登录)基本原理、优势、场景、交互过程和常见的问题

一、 关于秒验&#xff08;一键登录&#xff09;基本原理 秒验&#xff08;一键登录&#xff09;产品整合了三大运营商特有的数据网关认证能力&#xff0c;升级短信验证码体验&#xff0c;应用于用户注册、登陆、支付、安全校验等场景&#xff0c;可实现用户无感知校验&#x…

php 基本语法

一、php 基本语法 <?php // echo | print 两种输出语句 echo 任何位置; print 任何位置; ?>二、注释 <?php // echo 任何位置; // 单行注释 /*多行注释*/ ?>三、变量声明 变量名以 $ 开始&#xff0c;后面跟变量的名字&#xff0c;区分大小写 <?php $x …

爬虫python能做游戏吗_一入爬虫深似海,从此游戏是路人!总结我的python爬虫学习笔记!...

1、基本抓取网页get方法post方法2、使用代理IP在开发爬虫过程中经常会遇到IP被封掉的情况&#xff0c;这时就需要用到代理IP&#xff1b;在urllib2包中有ProxyHandler类&#xff0c;通过此类可以设置代理访问网页&#xff0c;如下代码片段&#xff1a;3、Cookies处理cookies是某…

三大运营商实现本机号码一键登录原理与应用

很多APP的目前都支持“本机号码一键登录”功能。本机号码一键登录是基于运营商独有网关认证能力推出的账号认证产品。用户只需一键授权&#xff0c;即可实现以本机号码注册/登录&#xff0c;相比先前的短信验证码流程体验更优。 目前市面上有很多厂商提供三网验证的服务&#…

php 数据类型

七种数据类型&#xff1a; String / Integer / Float / Boolean / Array / Object / null 检测变量的数据类型和值 var_dump() 一、字符串 $x abc; var_dump($x); echo $x; // string abc二、整形 $x 1234; var_dump($x); echo $x; // int 1234三、浮点型 $x 1.1; var_d…

部署到gcp_剖析大数据公司为什么选择 GCP?

文章来源&#xff1a;加米谷大数据假如L 是一家大数据公司。下面我们的文章将围绕L展开分析。很多公司拥有大数据。每天早餐之前&#xff0c;健壮的日志框架就已经生成了 PB 级别的日志&#xff0c;并以防万一将这些数据长期保存在了亚马逊的 S3 上。还有一些公司会使用他们自己…

Redis缓存那点破事 , 绝杀面试官 25 问

转载&#xff1a;https://blog.csdn.net/itomge/article/details/122118060 精彩文章汇总 GitHub https://github.com/aalansehaiyang/technology-talk &#xff0c;Star 12K &#xff0c;汇总java生态圈常用技术框架、开源中间件&#xff0c;系统架构、数据库、大公司架构案例…

css 动画 - 这次不会忘记了

css 动画基本用法 div {animation-name: rainbow; /*动画名称*/animation-duration: 1s; /*这段动画开始到结束总共需要花费多长时间*/animation-fill-mode: forwards; /*动画在结束时元素的样式*/animation-iteration-count: infinite; /*动画运行几次&#xff1f;*/animatio…

Mysql的select in会自动过滤重复的数据

Mysql的select in会自动过滤重复的数据 默认使用 SELECT 语句&#xff1b; 当加上in范围后&#xff0c;结果如下图&#xff1a; in范围内的数据&#xff0c;如果有重复的&#xff0c;只会选择第一个数据。 所以如果不是直接使用SQL语句来查询&#xff0c;而是在代码中来查询…

vue初始

一、引入 Vue 文件 <script src"https://cdn.jsdelivr.net/npm/vue2.6.14/dist/vue.js"></script>二、定义一个容器 <!--root 容器里的代码称为 Vue模板;VueProject 实例和容器是一一对应的&#xff1b;真实开发中只有一个 Vue 实例&#xff0c;并且…

小眼睛适合大框还是小框眼镜_【图】小眼睛适合什么眼镜框 这个禁忌千万不要犯_小眼睛_伊秀服饰网|yxlady.com...

很多天生眼睛偏小的人&#xff0c;都会想尽办法来让自己的眼睛看起来更大&#xff0c;而佩戴眼镜就是其中比较常见的方式。但佩戴眼镜也是需要讲究诀窍的&#xff0c;那么&#xff0c;小眼睛的人应该如何挑选眼镜呢&#xff1f;对于现代的年轻男女来说&#xff0c;很多时候佩戴…

java.sql.SQLIntegrityConstraintViolationException: Cannot add or update a child row: a foreign key c

错误原图&#xff1a; 错误分析&#xff1a;外键约束失败导致插入数据有误 解决问题&#xff1a;检查被关联的外键字段值&#xff0c;在原表中是否有对应的值&#xff0c;添加时外键的值在原表&#xff08;外键关联的表&#xff09;中一定要有该值&#xff0c;没有的值添加报错…

android 开源 高斯模糊_Android图像处理 - 高斯模糊的原理及实现

欢迎大家前往由前言高斯模糊是图像处理中几乎每个程序员都或多或少听过的名词&#xff0c;但是对其原理大家可能并不了解&#xff0c;只知道通过高斯模糊能实现图像毛玻璃效果。本文首先介绍图像处理中最基本的概念&#xff1a;卷积&#xff1b;随后介绍高斯模糊的核心内容&…