pandas 判断是否等于nan_Python之pandas笔记

efc6fa9924ac056807e36ba06bffef50.png

一、创建

1.创建 Series (一维,带标签的数组)

t = pd.Series(np.arange(10), index= list(string.ascii_uppercase[:10]))

2.创建 DataFrame (二维,Series的容器 )

t = pd.DataFrame(np.arange(6).reshape((2,3)), index=list('ab'),columns=list('csr') )

3.DataFrame的基础属性

#行列数 print(tt2.shape) #列数据类型 print(tt2.dtypes) #数据维度 print(tt2.ndim) #行索引 print(tt2.index) #列索引 print(tt2.columns) #对象值(二维数组) print(tt2.values)

4.DataFrame整体情况的查询

#显示头部的几行默认五行 print(tt2.head(2)) #显示末尾几行 默认五 print(tt2.tail()) 显示相关的信息 print(http://tt2.info()) 快速的纵隔统计记过: (计数,均值,标准差,最大值,四分位数, 最小值) print(tt2.describe())

5.DataFrame 对数据排序 (升序或者降序)

a) 升序 d1 = dogname.sort_values(by="Count_AnimalName") b) 降序 d2 = dogname.sort_values(by="Count_AnimalName", ascending=False)

6.取行取列操作

数字取行, 字符串取列 d2[:20]['Row_Labels'] df.loc方法:(通过标签索引行数据) print(csv.loc[['a','b'],['w','r']]) 遍历的形式,包括后面的r列 print(csv.loc[['a','b'],'w':'r']) df.iloc方法 (通过位置获取行数据) print(csv.iloc[[0,2],[2]]) 遍历的形式,不包括后面的3行 print(csv.iloc[0:3,[2,3]])

7.pandas布尔值类型条件

多个条件可以 通过 & 链接 dogname[(dogname['Count_AnimalName']>50) & (dogname['Row_Labels'].str.len()>4)]

8.对nan的一些操作

a) 判断是否为 nan : pd.isnull(t) 或者 pd.notnull(t) b) 删除nan所在行列: t.dropna(axis=0, how='any', inplace=False) how:any/all(全为nan删除) inplace是否直接替换 c) 填充nan: t.fillna(t.mean()) d) 将0改为nan:t[t==0] = np.nan

9.对于过长的DataFrame与numpy使用print打印时,全部显示(不会出现省略号)

a) 对于DataFrame: 1)显示所有的列: pd.set_option('display.max_columns', None) 2) 显示所有的行: pd.set_option('display.max_rows', None) b)对于numpy: numpy.set_printoptions(threshold = np.inf) #若想不以科学计数显示: numpy.set_printoptions(suppress = True)

10.数组合并之join / merge

a) join:默认情况下把行索引相同的数据合并到一起: df1.join(df2) 注意:根据前面的行列进行合并,假如两个df制定了列,则不可有重复列名 b) merge:根据列索引进行合并 1)默认为内连接(交集): df1.merge(df2, on='c') (假如都合适,22会出现四行数据) 2)merge outer外连接(并集):df1.merge(df2, on='c', how='outer')把除了交际以外的数据,显示c有的那一个df的数据,没有的补充nan 3)merge left 左连接(根据左边的df) 4)merge right右连接(根据右边的df

11.分组与聚合

1) grouped = df.groupby(by='列索引') #根据此列数据进行分组 2) grouped 是一个DataFrameGroupBy对象,是可迭代的 3) grouped中的每一个元素是一个元组 4) 元组里面是 (索引(分组的值),分组后的DataFrame)

12.DataFrameGroupBy 对象有很多经过优化的方法

7bd04707f661cd230e597985da6bc93e.png

13.简单的索引操作

1) 获取index: df.index 2) 指定index: df.index = ['x', 'y'] 3) 重新设置index: df.reindex(list("abc")) #这个操作类似查询,在df中取出有"abc"列的数据,没有的nan填充 4) 指定索引(index)为 某一列: df.set_index("列名",drop=Fasle) #drop指定Fasle,指定列成为索引,此列也为数据 5) 返回index的唯一值(去重): df.set_index('列名').index.unique()

14.从复合索引中取值

Series) 1) s1['a']['b'] 2) s1['a', 'b'] DataFrame) df.loc['a'].loc['b']

15.从内层索引开始取值

df.swaplevel()

16.pandas中的时间序列

1)生成时间范围 开始结束时间) pd.date_range(start="2001-01-01", end="2002-01-01", freq="10D") 开始时间和生成个数)pd.date_range(start="2001-01-01", periods = 10, freq= "WOM-3FRI") 2)时间字符串转换成 时间序列 df["timeStamp"] = pd.to_datetime(df["timeStamp"], format="") format对panda无法格式化的时间字符串进行处理,详情搜索

17.pandas重采样重采样:

指的是将时间序列从一个频率转换成另一个频率进行处理的过程。将高频率转换成低频率数据为降采样,低频率转换成高频率为升采样pandas提供一个 resample 的方法来帮助我们实现频率转化例如 以月份进行统计t.resample("M").mean()

18.PeriodIndex

DatetimeIndex 可以理解为时间戳 那么 PeriodIndex可以理解为时间段 例子: periods = pd.PeriodIndex( year=data["year"], month=data["month"],day=data["day"],hour=data["hour"], freq="H" ) 如何给这个时间段降采样? data = df.set_index(periods).resample("10D").mean()

19.时间类型转 字符串类型

time.strftime('%y%m%d')

f6272cea0a266dfbb8cefeac14f470aa.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511859.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解密 Dubbo 三大中心的部署架构

简介:Dubbo作为一个微服务框架,Dubbo SDK与应用服务绑定在同一个进程内,它跟随着应用服务被部署在分布式集群各个位置,为了在分布式环境下实现各个应用服务间的协作, Dubbo 定义了一些中心化组件。 作者 | 华钟明 01…

历经7年双11实战,阿里巴巴是如何定义云原生混部调度优先级及服务质量的?

简介: 本文将聚焦在 K8s 层的容器优先级和服务质量模型上,希望给业界提供一些可借鉴的思路。 作者:南异 引言 阿里巴巴在离线混部技术从 2014 年开始,经历了七年的双十一检验,内部已经大规模落地推广,每…

python 判断是否有余数_判断多个坐标是否在同一条直线上|Python练习系列[13]

练习内容:判断多个坐标是否在同一条直线上判断多个坐标是否在同一条直线上|Python练习系列[13]_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.comprint(请输入几个点的横纵坐标,程序将会返回这几个点是否在同一条直线上) def coor_nums():#获得每个值的横纵坐标int_list…

阿里云 FaaS 架构设计

简介:本篇内容将从 2 个部分为读者介绍关于阿里云 FaaS 架构设计和神龙高密部署的 FaaS,希望可以让大家对阿里云 FaaS 有更深入的了解,并可以将 FaaS 应用到项目中,达到降本提效的目的。 一、基于 ECS 的 FaaS 在阿里云传统架构…

MLPerf纪录技术分享:优化卷积合并算法提升Resnet50推理性能

作者 | 王申领 供稿 | 浪潮 MLPerf是一套衡量机器学习系统性能的权威标准,将在标准目标下训练或推理机器学习模型的时间,作为一套系统性能的测量标准。MLPerf推理任务包括图像识别(ResNet50)、医学影像分割(3D-UNet&a…

nas存储如何做远程服务器数据备份_备份数据?7 个理由告诉你为什么要用 NAS,而不用移动硬盘...

您有遇过这样的情况吗?用 U 盘或移动硬盘备份文件,但在重要时刻却找不到 U 盘,甚至遇到移动硬盘毁损的状况。这个时候是不是忽然间好恨自己,拿什么拯救你——我亲爱的数据。转而使用 NAS 的原因。让我们来看看地球上最安全的存储是…

用手机写代码:基于 Serverless 的在线编程能力探索

简介:Serverless 架构的按量付费模式,可以在保证在线编程功能性能的前提下,进一步降低成本。本文将会以阿里云函数计算为例,通过 Serverless 架构实现一个 Python 语言的在线编程功能,并对该功能进一步的优化&#xff…

如何形成统一设计风格-实践篇

简介:在上一篇《业务团队如何统一架构设计风格?》中,探讨了一种业务架构的设计规范,以期达到这些目标:用标准约束技术细节;用技术工具而非文档推行标准;持续重构而非造新轮子;重视业…

计算机教师资格考试试题,全国教师资格考试信息技术练习题(二)

中公教师通过对全国教师资格考试考情的分析,总结出全国教师资格考试《信息技术学科知识与能力》算法与程序设计部分的知识点,并提供了该模块的相关考试试题,希望能帮助考生抓住考点、有针对性地复习。一、算法与程序设计模块考点分析通过对全…

A/B测试白皮书:领先企业营收增长是落后者5倍

Forrester调查显示:企业使用A/B测试的ROI达126% 4月26日,《火山引擎A/B测试总体经济影响白皮书》正式发布。这份白皮书由市场研究公司Forrester调研撰写,揭示了A/B测试对于企业营收增长、运营成本、生产力优化等方面的重要影响。基于对多家企…

limit mongodb 聚合_MongoDB 统计 group 操作用不了,试试 mapReduce 吧

问题回顾今天,同事小张 Q 我, 说自己辛苦花了一天的时间,基于 mongodb 数据库开发的待办统计功能一直报错!于是笔者花了近半小时了解小张的开发需求以及代码实现方式,大致明白问题出在对待办 collection 做统计时&…

基于 EMR OLAP 的开源实时数仓解决方案之 ClickHouse 事务实现

简介:阿里云 EMR OLAP 与 Flink 团队深度合作,支持了 Flink 到 ClickHouse 的 Exactly-Once写入来保证整个实时数仓数据的准确性。本文介绍了基于 EMR OLAP 的开源实时数仓解决方案。 作者简介:阿里云 EMR-OLAP 团队;主要负责开源…

【ClickHouse 技术系列】- 在 ClickHouse 中处理实时更新

简介:本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理(OLAP)的开源分析引擎 ClickHouse,因其优良的查询性能,PB级的数据规模,简单的架构,被国内外公司广泛采用。本系列技…

从“数字化出海”到“出海数字化”,亚马逊云科技如何助力出海业务数字化转型

国内市场快速发展之外,全球也是广阔的市场。 据中国贸促会《中国企业对外投资现状及意向调查报告(2021年版)》显示,我国对外直接投资流量和存量稳居全球前三。在开拓海外市场的成绩里,2021全球《财富》世界500强榜单里…

amos调节变量怎么画_插画师该怎么收费?两个方法一看就懂。

任何自由插画师都逃不过要给客户报价这么一个令人头痛的环节,包括医学插画师。甲方往往希望看到一个菜单一样的价格表,把一切类型的插画安排的明明白白。而这样简单粗暴的算法,作为乙方又何尝不想要呢!纵观插画圈,萌新…

技术实践第二期|Flutter异常捕获

简介:应用性能稳定是良好用户体验中非常关键的一环,为了更好保障应用性能稳定,异常捕获在保证线上产品稳定中扮演着至关重要的角色。我们团队在推出了U-APM移动应用性能监控的产品后,帮助开发者定位并解决掉很多线上的疑难杂症。随…

请结合计算机硬件论述指令执行的过程,【计算机组成原理】计算机软硬件组成...

文章目录分层结构软件系统硬件系统I/O设备控制器存储器运算器先上张图,对计算机的软硬件组成有个大体的认识,接下来就是掰开揉碎这张大图ψ(`∇)ψ,本文绝大多数图片均为手绘分层结构其中操作系统的重要性不言而喻,也就…

F5:API 网关、流量网关发展各异,推出NGINX企阅版提供开源软件+企业级服务

作者 | 宋慧 出品 | CSDN 云计算 全球 80%互联网流量经过的 NGINX,全球有超过 4 亿个域名使用 NGINX 为载体,NGINX 无疑是成功的开源网关产品。 近日,F5 宣布 NGINX 在社区开源版本基础之上,推出NGINX企阅版(NGINX Op…

Spring Boot Serverless 实战系列“架构篇” 首发 | 光速入门函数计算

简介:如何以 Serverless 的方式运行 Spring Boot 应用? 作者 | 西流(阿里云函数计算专家) Spring Boot 是基于 Java Spring 框架的套件,它预装了 Spring 一系列的组件,开发者只需要很少的配置即可创建独立…

实现 消息提醒图标_用了5年苹果手机都不知道,原来小汽车图标是这个意思 ! ! !...

阅读本文前,请您先点击上面的“蓝色字体”,再点击“关注”,这样您就可以继续免费收到文章了。每天都会有分享,都是免费订阅,请您放心关注。注图文来源网络,侵删 …