Python for Data Analysis 学习心得(二) - pandas介绍

 一、pandas介绍

本篇程序上篇内容,在numpy下面继续介绍pandas,本书的作者是pandas的作者之一。pandas是非常好用的数据预处理工具,pandas下面有两个数据结构,分别为Series和DataFrame,DataFrame之前我在一些实战案例中有用过,下面先对这两个数据结构做介绍。

 

二、Series

Series最简单的一个功能就是对一组数字打上ID,用法为下

可以看到Series会自动把数字打上0~3对应的ID,也可以对ID自定义名称

这样就可以用key-value的形式将序列里的值调出,也可透过索引来修改值,比如obj2['d'] = 2

如果将字典导入,由于字典本身就是key-value对应的格式,所以Series也会继续沿用这种对应方式

 

三、DataFrame

1、表的基本操作

Dataframe同样也是可以将字典导入,并会对字典做索引,如下

 

对于数据量较大的资料,可以用head( )来查看前五项的数据。

使用frame['列名称']或是frame.列名称的方式查看某一列的数据。使用frame.loc['索引值']可以查看某一行的数据。而frame.values则可以看到完整的行列数据

可以对选取的值进行修改,例如frame['year'] = 2000会把年份都修改成2000,del frame['year']则会把year这一列删除, drop('1')会把这行数据删除

如果字典导入时某个值缺失了会用NaN来表示

另外如果导入的是嵌套式字典的话则会把第一层当做列,第二层的key为行,下面为嵌套式的案例

可以看到第一层的Nevada和Ohio为列,第二层的key 2000,2001,2002 为列,缺失的数据显示为NaN

 DataFrame可以对行和列做编辑,frame = pd.DataFrame(np.arange(9).reshape(3,3), index = [ 'a', 'c', 'd' ], colume = ['Ohio', 'Texas', 'California']),就会成为下面的矩阵

 

2、计算

当DataFrame对两个表进行运算时,假设一个表某个值要和另外一个表的值做计算,但是其中有一个值为空缺值(NaN),那运算的结果就会是空缺值(NaN),例如5+NaN = NaN,下面为范例说明

 

为了避免这种情况发生,我们会希望系统可以假设这个不存在的值为0,这样我们的缺失值才不会在计算过程中扩散,我们希望的是5+NaN = 5, 所以就需要让pandas在做运算的时候对缺失值补上数字,方法为在运算指令后面加上fill_value这个选项。

 

另外在做矩阵的计算时,如果是对单行做计算,则会使用广播,对每行都进行一次计算,如下图

 

 3、排序

DataFrame也可以利用sort进行排序,默认的排序方式是由小到大,最后是NaN。可以指定以某列为基准进行排列,如下图就是以b这一列为基准进行排列

另外还有一种排序方式称为rank,他可以为Series里面的每个值大小做排序,并给与由小到大的评分(从1开始),如下图,由于第2行的-5最小,所以rank值为1,再依序增加。

 

4、重复标签索引

和关系型数据库的唯一索引不同,pandas可以使用重复的索引,可使用以下代码查看表索引是否有重复的值

使用索引查找数据时,pandas会将所有相同索引的值都返回

 

 5、统计

pandas支援各式各样的统计,有常见的sum、mean、count等,可以可以查看图表的各种统计数据,下面为几个统计的指令

 

转载于:https://www.cnblogs.com/yenpaul/p/10120430.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/265181.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

别人总结的一些git教程大全

工作中,除了必备的基础知识,还要学会与人合作。 如何将你开发的小功能整合到整个项目的大框架中如何让你的实验性代码不影响到大框架中的代码性能如何让你放下手中写到一半的代码去修改突然出现的bug 这些都是会出现的情况,为了应对这些情况…

Euler:欧拉函数&素数筛

一、欧拉函数 欧拉函数是小于x的整数中与x互质的数的个数,一般用φ(x)表示。 通式: 其中p1, p2……pn为x的所有质因数,x是不为0的整数。比如x12,拆成质因数为122*2*3,12以内有1/2的数是2的倍数,那么有1-1/2…

大小端字节序

想起以前在汇编语言和数字逻辑的时候也有接触到一些这个概念,已经有点模糊了,搞不清楚哪个是低位在前哪个是高位在前。后来在Wiki和Google的帮助下也算摸清楚了一些Endianness的概念。 一、字节序的起源 在计算机中,字节序(Endian…

面经——嵌入式软件工程师2021面试指南【转】

目录 作者简介面试前准备资料推荐要不要刷笔试题、力扣企业资讯获取简历制作去不去外包面试自我介绍技术面试HR面我的面试经历基础媒体层知识项目谈薪资最后作者简介 2021应届本二,目前年薪20,在某行业头部大厂从事嵌入式多媒体开发(音视频应用方向)。 由于没有耀眼的学历…

docker 部署nginx 使用keepalived 部署高可用

一.体系架构 在Keepalived Nginx高可用负载均衡架构中,keepalived负责实现High-availability (HA) 功能控制前端机VIP(虚拟网络地址),当有设备发生故障时,热备服务器可以瞬间将VIP自动切换过来&#xff0c…

【原】自定义UINavigationItem的两种方法以及相应的隐藏方法

第一种: UIImage *searchimage[UIImage imageNamed:"search.png"]; UIBarButtonItem *barbtn[[[UIBarButtonItem alloc] initWithImage:nil style:UIBarButtonItemStyleDone target:self action:selector(searchprogram)] autoRelease]; barbtn.image…

虚拟字符设备驱动开发步骤

目录前言字符设备驱动简介内核驱动操作函数集合(file_operations结构体)字符设备驱动开发步骤.ko驱动模块的加载和卸载(module_init驱动入口、insmod驱动加载)字符设备注册与注销到内核register_chrdev(设备号、设备名) -- 很少用了实现设备的具体操作函数添加LICENSE 和作者信…

Jackson学习笔记

Java下常见的Json类库有Gson、JSON-lib和Jackson等,Jackson相对来说比较高效,在项目中主要使用Jackson进行JSON和Java对象转换,下面给出一些Jackson的JSON操作方法。 一、准备工作 Jackson有1.x系列和2.x系列,2.x系列有3个jar包需…

设计模式20——Mediator设计模式

2019独角兽企业重金招聘Python工程师标准>>> Mediator中介者设计模式是通过一个中介对象封装一系列关于对象交互行为. Mediator中介者设计模式中的角色如下: (1).中介者(Mediator):抽象定义了“同事”(co…

Linux LED驱动开发实验(直接操作寄存器 -- 实际开发很少这样做)

目录Linux 下LED 灯驱动原理地址映射(ioremap映射、iounmap释放)I/O 内存访问函数硬件原理图分析实验程序编写LED 灯驱动程序编写APP测试程序编写运行测试编译驱动程序和测试APP拷贝led.ko 和ledApp到指定目录加载led.ko 驱动模块到内核创建应用层“/dev/led”设备节点运行测试…

MJRefresh-简单使用

MJRefresh-简单使用 #import <MJRefresh.h>interface HKTopicViewController () /** 当前最后一条帖子数据的描述信息&#xff0c;专门用来加载下一页数据 */ property (nonatomic, copy) NSString *maxtime; /** 所有的帖子数据 */ property (nonatomic, strong) NSMuta…

Strange Words 4

2019独角兽企业重金招聘Python工程师标准>>> abnormality 英[ˌbnɔːmləti] 美[ˌbnɔːrmləti] n.变态&#xff1b;反常&#xff1b;异常&#xff1b;畸形 tenor 英 [tenə(r)]  美 [tenər] n.大意&#xff1b;要旨&#xff1b;常规&#xff1b;男高音&…

新字符设备驱动实验(自动分配设备号、自动创建应用层设备节点、新字符设备注册到内核的结构体)

目录自动分配和释放设备号示例代码新的字符设备注册到内核方法字符设备结构体(前面的设备号也放进来)cdev_init结构体初始化函数cdev_add 添加到linux内核cdev_del内核注销函数自动创建应用层设备节点mdev 机制创建和删除类创建删除设备(生成/dev/xxx设备)参考示例(先删除设备再…

$Django importlib与dir知识,手写配置文件, 配置查找顺序 drf分页器drf版本控制

1 importlib与dir知识 # importlib简介动态导入字符串模块 # 常规导入 from ss.aa import b from ss import a print(b,type(b)) #<module ss.aa.b from F:\\python37\\pythonfiles\\ss\\aa\\b.py> #<class module># importlib动态导入py文件模块 import importli…

P1971 [NOI2011]兔兔与蛋蛋游戏

传送门 思路比较迷……题解在这里 //minamoto #include<bits/stdc.h> #define R register #define fp(i,a,b) for(R int ia,Ib1;i<I;i) #define fd(i,a,b) for(R int ia,Ib-1;i>I;--i) #define go(u) for(int ihead[u],ve[i].v;i;ie[i].nx,ve[i].v) using namespac…

网站后台admin修改故事

网站后台登陆有时出错&#xff0c;可以被******&#xff0c;不得不修改密码&#xff0c;使用phpmyadmin修改后台密码账号&#xff0c;刷新。转载于:https://blog.51cto.com/7330234/1355437

springMVC_07乱码及restful风格

乱码的解决 通过过滤器解决乱码问题:CharacterEncodingFilter 配置web.xml文件 <filter><filter-name>encoding</filter-name><filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class><init-param><para…

[转】HTTP请求流程(二)----Telnet模拟HTTP请求

转自&#xff1a; http://www.cnblogs.com/stg609/archive/2008/07/06/1237000.html 上一部分"流程简介"&#xff0c; 我们大致了解了下HTTP请求的流程&#xff0c;这一篇我向大家介绍下如何利用Telnet来模拟Http请求---访问百度。 我们直接开始吧&#xff01; …

设备树下的LED驱动实验

目录设备树LED驱动原理硬件原理图分析实验程序编写修改设备树文件(根节点下添加好区分)LED灯驱动程序编写编写测试APP运行测试编译驱动程序和测试APP运行测试上一章我们详细的讲解了设备树语法以及在驱动开发中常用的OF 函数&#xff0c;本章我们就开始第一个基于设备树的Linux…

记录一下Junit测试MongoDB,获取MongoTemplate

只是自己记录一下&#xff0c;测试MongoDB帮助类时&#xff0c;没有配置文件的测试 public class HelperTest {MongoTemplate template;Beforepublic void init() {MongoDbFactory facotry new SimpleMongoDbFactory(new MongoClient("127.1.1.1", 27017), "te…