【数据分析】pandas 一

目录

一,pandas简介:

二,pandas数据结构Series简介:

2.1 data为ndarray

2.2 data为字典

三,Serise切片操作:

四,Series性质:

4.1 Series类似于numpy,字典

4.2 矢量化操作和标签对齐系列:

4.3 name属性:


一,pandas简介:

        pandas是Python的一个第三方开源库,是Python数据分析的必备高级工具,Pandas 这个名字来源于面板数据(Panel Data)与数据分析(data analysis)这两个名词的组合。在经济学中,Panel Data 是一个关于多维数据集的术语。Pandas 最初被应用于金融量化交易领域,现在它的应用领域更加广泛,涵盖了农业、工业、交通等许多行业。


二,pandas数据结构Series简介:

Series是一个一维标记数组,能够保存任何数据类型(整数,字符串,浮点数,Python对象等)。创建它的基本方法是调用Series

首先我们先导入pandas

import numpy as np
import pandas as pd
s = pd.Series(data, index=index)

这里data可以有很多不同的东西:

        python字典

        一个ndarray

        标量值(如 5)

传递的索引是轴标签的列表,因此根据数据是什么,分为几种情况:

2.1 data为ndarray

如果 data 是 ndarray,则索引必须与数据长度相同。如果没有传递索引,则会创建一个具有 value 的索引。[0,..,len(data)-1]

这里我们先给出index

s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
a    0.469112
b   -0.282863
c   -1.509059
d   -1.135632
e    1.212112
dtype: float64
s.index
 Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

下面我们不给index

pd.Series(np.random.randn(5))
0   -0.173215
1    0.119209
2   -1.044236
3   -0.861849
4   -2.104569
dtype: float64

可以看到Python自动生成了一个索引

2.2 data为字典

Series可以从字典实例化:

d = {"b": 1, "a": 0, "c": 2}
b    1
a    0
c    2
dtype: int64

如果传递了索引,则将拉出索引中标签对应的数据中的值

d = {"a": 0.0, "b": 1.0, "c": 2.0}
pd.Series(d)
pd.Series(d, index=["b", "c", "d", "a"])
a    0.0
b    1.0
c    2.0
dtype: float64b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

注意:NaN不是数字是pandas中使用的标准缺失数据标记

三,Serise切片操作:

Series与ndarray非常相似,并且是大多数Numpy函数的有效参数,Series也能对索引进行切片操作。

s[0]
 0.4691122999071863
s[:3]
a    0.469112
b   -0.282863
c   -1.509059
dtype: float64
s[s > s.median()]
a    0.469112
e    1.212112
dtype: float64
s[[4, 3, 1]]
e    1.212112
d   -1.135632
b   -0.282863
dtype: float64

四,Series性质:

4.1 Series类似于numpy,字典

与numpy数组一样,pandas的Series也有一个dtype

s.dtype
dtype('float64')

这通常是NumPy dtype。然而,pandas和第3方库在几个地方扩展了NumPy的类型系统,在这种情况下,dtype将是ExtensionDtype.pandas中的一些示例是分类数据和可为空整数数据类型。

Series也类似于固定大小的字典,可以通过索引标签获取和设置值:

s["a"]
s["e"] = 12.0
"e" in s
"f" in s
0.4691122999071863a     0.469112
b    -0.282863
c    -1.509059
d    -1.135632
e    12.000000
dtype: float64True
False

如果索引中不包含标签则会引发异常。

使用Series.get()方法,丢失的标签将返回None或指定的默认值:

s.get("f", np.nan)
nan

4.2 矢量化操作和标签对齐系列:

使用原始Numpy数组时间,通常不需要逐值循环,在panda中使用Series时间也是如此,Series可以传递到大多数需要ndarray的Numpy方法中

s + s
s * 2
np.exp(s)
a     0.938225
b    -0.565727
c    -3.018117
d    -2.271265
e    24.000000
dtype: float64a     0.938225
b    -0.565727
c    -3.018117
d    -2.271265
e    24.000000
dtype: float64a         1.598575
b         0.753623
c         0.221118
d         0.321219
e    162754.791419
dtype: float64

Series和ndarray之间的一个关键区别是,Series会根据标签自动对齐数据,因此,在编写计算时无需烤炉Series的标签是否相同。

s[1:] + s[:-1]
a         NaN
b   -0.565727
c   -3.018117
d   -2.271265
e         NaN
dtype: float64

未对齐之间的运算结果Series将包含所涉及索引的并集。Series如果在其中一个或另一个中找不到标签,结果将被标记为丢失NaN。能够在不进行任何显式数据对齐的情况下编写代码,为交互式数据分析和研究提供了巨大的自由度和灵活性。pandas数据结构的集成数据对齐功能使pandas与大多数处理标记数据的相关工具区分开来。

注意:一般来说,我们选择使不同索引对象之间的操作的默认结果产生索引的并集,以避免信息丢失。尽管缺少数据,但拥有索引标签通常是计算过程中的重要信息。您当然可以选择通过dropna函数删除丢失数据的标签。

4.3 name属性:

Series还有一个name属性:

s = pd.Series(np.random.randn(5), name="something")s.name
0   -0.494929
1    1.071804
2    0.721555
3   -0.706771
4   -1.039575
Name: something, dtype: float64'something'

另外还能又pandas.Series.rename()来重命名

s2 = s.rename("different")
s2.name
'different'

4.4,基本属性

属性用途
s.shape查看数据行列
s.ndim查看维度,Series 是一维,ndim 恒等于1
s.size查看数据总数
s.index查看索引
s.values查看数据值
s.name查看 Series 对象的 name,若未设定则为空

(1)

s = pd.Series(np.random.randint(1,10,size=(10,)))

 s.head() # 默认是前五行数据,可自定义行数,比如想要十行的话,s.head(10)

 (2)isnull(),notnull()函数检测缺失数据

创建一个测试集

obj = Series([10,4,np.nan])

使用notnull查看

notnull = pd.notnull(obj)

根据isnull()返回的结果,取不为空的数据

obj[notnull]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/27277.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flask进阶:构建RESTful API和数据库交互

在初级教程中,我们已经介绍了如何使用Flask构建基础的Web应用。在本篇中级教程中,我们将学习如何用Flask构建RESTful API,以及如何使用Flask-SQLAlchemy进行数据库操作。 一、构建RESTful API REST(Representational State Tran…

【LeetCode】88. 合并两个有序数组 - 双指针

这里写自定义目录标题 2023-8-7 22:35:41 88. 合并两个有序数组 双指针 2023-8-7 22:35:41 class Solution {public void merge(int[] nums1, int m, int[] nums2, int n) {int last m n ;while(n > 0){if(m > 0 && nums2[n-1] > nums1[m-1]){nums1[las…

objectMapper.getTypeFactory().constructParametricType 方法的作用和使用

在使用 Jackson 库进行 JSON 数据的序列化和反序列化时,经常会使用到 ObjectMapper 类。其中,objectMapper.getTypeFactory().constructParametricType 方法用于构造泛型类型。 具体作用和使用如下: 作用: 构造泛型类型&#x…

Linux软件包管理

Linux软件包管理 一.软件运行环境基础 1.gcc编译程序的大致过程 gcc 编译程序主要经过四个过程: 处理(Pre-Processing) 译 (Compiling) 编 (Assembling) 接 (Linking) …

CentOS下ZLMediaKit的可视化管理网站MediaServerUI使用

一、简介 按照 ZLMediaKit快速开始 编译运行ZLMediaKit成功后,我们可以运行其合作开源项目MediaServerUI,来对ZLMediaKit进行可视化管理。通过MediaServerUI,我们可以实现在浏览器查看ZLMediaKit的延迟率、负载率、正在进行的推拉流、服务器…

并发——线程与进程的关系,区别及优缺点?

文章目录 1. 图解进程和线程的关系2.程序计数器为什么是私有的?3. 虚拟机栈和本地方法栈为什么是私有的?4. 一句话简单了解堆和方法区5. 说说并发与并行的区别? 从 JVM 角度说进程和线程之间的关系 1. 图解进程和线程的关系 下图是 Java 内存区域,通过下图我们…

Redis,过期监听

应用场景,优惠卷过期,监听 配置类 import org.springframework.cache.annotation.CachingConfigurerSupport; import org.springframework.cache.annotation.EnableCaching; import org.springframework.context.annotation.Bean; import org.springframework.context.annota…

vue-cli

vue-cli脚手架 案例一: 案例二: 案例三: ​ 一、脚手架简介 Vue脚手架是Vue官方提供的标准化开发工具(开发平台),它提供命令行和UI界面,方便创建vue工程、配置第三方依赖、编译vue工程 1. …

Llama 2 云端部署与API调用【AWS SageMaker】

Meta 刚刚发布了 Llama 2 大模型。如果你和我们一样,你一定会迫不及待地想要亲自动手并用它来构建。 推荐:用 NSDT设计器 快速搭建可编程3D场景。 使用任何类型的 LLM 进行构建的第一步是将其托管在某处并通过 API 使用它。 然后你的开发人员可以轻松地将…

Vue3 第二节 Vue3的响应式

1.Vue3的响应式原理 2.ref函数和reactive函数的对比 3.setup注意点 一.Vue3的响应式原理 1.Vue2.x中的响应式原理 ① 实现原理 对象类型:通过Object.defineProperty() 对属性的读取,修改进行拦截(数据劫持)数组类型&#xf…

zookeeper集群和kafka的相关概念就部署

目录 一、Zookeeper概述 1、Zookeeper 定义 2、Zookeeper 工作机制 3、Zookeeper 特点 4、Zookeeper 数据结构 5、Zookeeper 应用场景 (1)统一命名服务 (2)统一配置管理 (3)统一集群管理 (4&a…

Vue缓存字典值减少网络请求次数,解决同样参数并发请求多次

前言 在一些项目里,我们可能有着大量的下拉框,而这些下拉框的数据就来源于我们后端接口返回的字典信息。于是,画风可能是这样的,每次下拉,你都需要请求一次字典接口拿到这些数据,于是每次组件刷新都会重复…

C# PaddleDetection 版面分析

效果 项目 代码 using OpenCvSharp; using OpenCvSharp.Extensions; using Sdcb.PaddleDetection; using Sdcb.PaddleInference; using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Lin…

目前Java后端就业前景怎么样?

前言 并不乐观,看看现在的就业形式就知道了,基本上是僧多粥少的情况,你可能会看到很多编程语言排行榜或者流行榜中Java的排名很高,如同下面这种: 看排名确实可以粗略的得知语言当下的流行度、使用率,但是它…

Redis如何实现Session存储

在Redis中实现Session存储,主要有两种方式:使用Spring Session和手动存储。 使用Spring Session:Spring Session是Spring框架提供的一个模块,用于简化Session管理,并将Session数据存储到外部数据存储中,如Redis。使用Spring Session,你只需要在Spring Boot项目中添加相应…

springBoot的配置文件

目录 配置文件的格式 1. 配置项的分类和中文支持 2. properties 配置文件 读取配置文件 优缺点分析 3. yml 配置文件 读取配置文件 优缺点分析: 4. 多个配置文件 5. properties 和 yml 的对比 在 springBoot 中很多重要的数据是需要通过配置文件进行配置…

并发——什么是线程,什么是进程

文章目录 1.1. 何为进程?1.2. 何为线程? 1.1. 何为进程? 进程是程序的一次执行过程,是系统运行程序的基本单位,因此进程是动态的。系统运行一个程序即是一个进程从创建,运行到消亡的过程。 在 Java 中,当我们启动 main 函数时…

npm install 安装慢的问题处理

原因 npm install 默认使用的安装镜像时国外的镜像,国内使用会受到网络的限制。 解决方案 更换网络更换npm的安装镜像为国内,比如: npm config set registry https://registry.npm.taobao.org

qt源码---事件系统之QCoreApplication

上一节分析了qt和windows系统之间的消息的传递,本节着重看一下,qt内部的事件是如何传递的? 1.sendEvent函数 在使用的自定义事件时,有时需要手动抛出一个事件,常用的方式有2种,其一时阻塞式的sendEvent函…

Kubernetes(K8s)从入门到精通系列之十:使用 kubeadm 创建一个高可用 etcd 集群

Kubernetes K8s从入门到精通系列之十:使用 kubeadm 创建一个高可用 etcd 集群 一、etcd高可用拓扑选项1.堆叠(Stacked)etcd 拓扑2.外部 etcd 拓扑 二、准备工作三、建立集群1.将 kubelet 配置为 etcd 的服务管理器。2.为 kubeadm 创建配置文件…