python3-pandas 数据结构 Series、DataFrame 基础

Pandas 应用
Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。
数据结构
Series 是一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

1、Pandas 数据结构 - Series

Series 带标签的一维数组
pandas.Series( data, index, dtype, name, copy)

参数说明:

  • data:一组数据(ndarray 类型)。
  • index:数据索引标签,如果不指定,默认从 0 开始。
  • dtype:数据类型,默认会自己判断。
  • name:设置名称。
  • copy:拷贝数据,默认为 False。

如果没有指定索引,索引值就从 0 开始

t = pd.Series([4,5,6])
print(t)
print(type(t))  # <class 'pandas.core.series.Series'>
print(t[1])  # 5
"""
0    4
1    5
2    6
dtype: int64
<class 'pandas.core.series.Series'>
5
"""

指定索引值,修改数据类型:

t2 = pd.Series([2,4,6,8], index=list("abcd"))
print(t2)
print(t2["c"])  # 6
print(t2.astype(float))
print(t2[t2>5])
"""
a    2
b    4
c    6
d    8
dtype: int64
6
a    2.0
b    4.0
c    6.0
d    8.0
dtype: float64
c    6
d    8
dtype: int64
"""

使用 key/value 对象,类似字典来创建 Series

temp_dict = {"name": "wang1", "age": 18, "tel": 10010}t3 = pd.Series(temp_dict)
print(t3)
print(t3["age"])  # 18
print(t3[1])  # 18
print(t3[:2])
print(t3[[1,2]])
print(t3[["name","tel"]])
"""
name    wang1
age        18
tel     10010
dtype: object
18
18
name    wang1
age        18
dtype: object
age       18
tel    10010
dtype: object
name    wang1
tel     10010
dtype: object
"""

获取 Series 的值、索引

print(t3.index)  # Index(['name', 'age', 'tel'], dtype='object')
print(type(t3.index))  # <class 'pandas.core.indexes.base.Index'>print(t3.values)  # ['wang1' 18 10010]
print(type(t3.values))  # <class 'numpy.ndarray'>

2、Pandas 数据结构 - DataFrame

DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)
在这里插入图片描述
DataFrame 构造方法如下:
pandas.DataFrame( data, index, columns, dtype, copy)
DataFrame 二维,Series 容器
参数说明:

  • data:一组数据(ndarray、series, map, lists, dict 等类型)。
  • index:索引值,或者可以称为行标签。
  • columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。
  • dtype:数据类型。
  • copy:拷贝数据,默认为 False。
import pandas as pd
import numpy as np
t = pd.DataFrame(np.arange(12).reshape(3,4))
print(t)
"""0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11
"""

在这里插入图片描述
DataFrame对象既有行索引,又有列索引
行索引,表明不同行,横向索引,叫index,0轴,axis=0
列索引,表明不同列,纵向索引,叫columns,1轴,axis=1

2.1、index、columns 使用:

t1 = pd.DataFrame(np.arange(12).reshape(3,4), index=list("abc"), columns=list("wxyz"))
print(t1)
"""w  x   y   z
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11
"""

2.2、使用列表创建DataFrame,缺失的值用 NaN 代替

data = [['Google',10],['Runoob',12],['Wiki',13]]
df = pd.DataFrame(data,columns=['Site','Age'])
print(df)
"""Site  Age
0  Google   10
1  Runoob   12
2    Wiki   13
"""

2.3、使用字典创建DataFrame,缺失的值用 NaN 代替

data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}
df = pd.DataFrame(data)
print (df)
"""Site  Age
0  Google   10
1  Runoob   12
2    Wiki   13
"""
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print (df)
"""a   b     c
0  1   2   NaN
1  5  10  20.0
"""

2.4、DataFrame基础属性

DataFrame.shape  # 行数 列数
DataFrame.dtypes  # 列数据类型
DataFrame.ndim  # 数据维度
DataFrame.index  # 行索引
DataFrame.columns  # 列索引
DataFrame.values  # 对象值DataFrame.head(3)  # 显示头部几行,默认5行
DataFrame.tail(3)  # 显示末尾几行,默认5行
DataFrame.info()  # 相关信息概览:行数,列数,列索引,列非空值个数,列类型,内存占用
DataFrame.describe()  # 快速综合统计结果:计数,均值,标准差,最大值,四分位数,最小值
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print(df)
"""a   b     c
0  1   2   NaN
1  5  10  20.0
"""
print(df.index)  # RangeIndex(start=0, stop=2, step=1)
print(df.columns)  # Index(['a', 'b', 'c'], dtype='object')
print(df.values)  # [[ 1.  2. nan] [ 5. 10. 20.]]
print(df.shape)  # (2, 3)
print(df.ndim)  # 数据维度 2
print(df.dtypes)  # 列数据类型
"""
a      int64
b      int64
c    float64
dtype: object
"""
print("*"*80)
print(df.info())
"""
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):#   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  0   a       2 non-null      int64  1   b       2 non-null      int64  2   c       1 non-null      float64
dtypes: float64(1), int64(2)
memory usage: 176.0 bytes
None
"""
print(df.describe())
"""a          b     c
count  2.000000   2.000000   1.0
mean   3.000000   6.000000  20.0
std    2.828427   5.656854   NaN
min    1.000000   2.000000  20.0
25%    2.000000   4.000000  20.0
50%    3.000000   6.000000  20.0
75%    4.000000   8.000000  20.0
max    5.000000  10.000000  20.0
"""

2.5、DataFrame 排序

data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print(df)
"""a   b     c
0  1   2   NaN
1  5  10  20.0
"""
# ascending=True 升序
# ascending=False 降序
df = df.sort_values("c", ascending=False)
print(df)
"""a   b     c
1  5  10  20.0
0  1   2   NaN
"""

https://www.runoob.com/pandas/pandas-series.html
https://www.bilibili.com/video/BV1hx411d7jb?p=23
https://www.bilibili.com/video/BV1hx411d7jb?p=24
https://www.bilibili.com/video/BV1hx411d7jb?p=25
https://www.bilibili.com/video/BV1hx411d7jb?p=26

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/518144.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

十年磨一剑 | 淘宝如何打造承载亿级流量的首页?

阿里妹导读&#xff1a;手机淘宝作为整个互联网领域旗舰 APP 之一&#xff0c;装机量和用户访问量都是名列前茅的。而首页作为打开手机淘宝的门面&#xff0c;是淘宝电商领域的主要流量入口和服务消费者的核心阵地&#xff0c;其业务的复杂性之高、系统的稳定性之重都有着极高的…

switchhosts 没有修改hosts的权限解决方案

使用swtichHost工具切换开发环境时候提示没有权限问题&#xff0c;如下图。。 解决方案有两点 1、进入 C:\Windows\System32\drivers\etc右键点击hosts的属性查看 属性的只读是否被勾选了&#xff0c;如果被勾选了将勾选勾去掉 上述完成后以管理员身份运行&#xff08;管理员…

闲鱼亿级商品结构化背后的思考和演进

1. 缘起 闲鱼是一个典型的C2C场景的闲置交易平台。每个在闲鱼的用户都能享受到自由交易的乐趣。在这里&#xff0c;可能你只要简单的输入商品名&#xff0c;商品价格&#xff0c;库存等信息就能完成一个商品的发布。即便是发布以后&#xff0c;你也可以随时修改价格&#xff0…

QingStor NeonSAN跻身四强 新风口下的青云QingCloud正在厚积薄发

人类以日新月异的速度刷新着科技的成果&#xff0c;其中存储的发展历史尤其悠久&#xff0c;堪称万年进化史。自文明诞生以来&#xff0c;我们就一直在寻求能够更有效存储信息的方式&#xff0c;从4万年前的洞穴壁画、6000年前泥板上的楔形文字&#xff0c;到今天正在普及的SSD…

python3-pandas DataFrame 索引、bool索引、pandas 字符串方法

1、DataFrame 索引 1.1 普通索引取值 pandas 取行或者列的注意点&#xff1a; 方括号写数组&#xff0c;表示取行&#xff0c;对行进行操作方括号写字符串&#xff0c;表示取列&#xff0c;对列进行操作 import pandas as pd import numpy as np # pandas 取行或者列的注意…

记一次Cassandra Java堆外内存排查经历

背景 最近准备上线cassandra这个产品&#xff0c;同事在做一些小规格ECS(8G)的压测。压测时候比较容易触发OOM Killer&#xff0c;把cassandra进程干掉。问题是8G这个规格我配置的heap(Xmx)并不高&#xff08;约6.5g&#xff09;已经留出了足够的空间给系统。只有可能是Java堆…

程序员内功修炼系列:10 张图解谈 Linux 物理内存和虚拟内存

来源 | 后端技术学堂责编 | Carol封图 | CSDN 付费下载于视觉中国我们都知道&#xff0c;程序可没这么好骗&#xff0c;任你内存管理把虚拟地址空间玩出花来&#xff0c;到最后还是要给程序实实在在的物理内存&#xff0c;不然程序就要罢工了。所以物理内存这么重要的资源一定要…

阿里高级技术专家方法论:如何写复杂业务代码?

阿里妹导读&#xff1a;张建飞是阿里巴巴高级技术专家&#xff0c;一直在致力于应用架构和代码复杂度的治理。最近&#xff0c;他在看零售通商品域的代码。面对零售通如此复杂的业务场景&#xff0c;如何在架构和代码层面进行应对&#xff0c;是一个新课题。结合实际的业务场景…

Android Studio 安装教程

注意安装之前请配置好java 和 Android SDK 1、下载 官网地址&#xff1a; https://developer.android.google.cn/studio/ 点击下载后&#xff0c;需要同意协议&#xff1a; 2、安装 1、双击程序 2、一路 next&#xff0c;如果想修改路径可自行修改。 3、安装完成点击Fi…

Schedulerx2.0工作流支持数据传输

1. 前言 Schedulerx2.0是阿里中间件自研的基于akka架构的新一代分布式任务调度平台&#xff0c;提供定时、任务编排、分布式跑批等功能&#xff0c;具有高可靠、海量任务、秒级调度等能力。 Schedulerx2.0提供可视化的工作流进行任务编排&#xff0c;该文章将详细介绍如何使用…

应用实时监控 ARMS 上线用户行为回溯功能

随着前端技术日新月异迅猛发展&#xff0c;为了实现更好的前端性能&#xff0c;最大程度提高用户体验&#xff0c;支持单页应用的框架逐渐占领市场&#xff0c;如众所周知的React&#xff0c;Vue等等。但是在单页应用的趋势下&#xff0c;快速定位并解决JS错误却成为一大难题。…

Android Studio 创建第一个Android工程项目

1、打开Android Studio 2、点击 New Project 选择 Empty Activity 3、点击 Next 4、点击 Finish 等待加载完成&#xff0c;取决于网络&#xff0c;第一次加载可能要很久。。。 5、下载完成 可以在右上角切换为 Project 模式 6、创建一个虚拟设备 https://www.bilibili…

我竟然混进了 Python 高级圈子!

现如今&#xff0c;计算机科学、人工智能、数据科学已成为技术发展的主要推动力。无论是要翻阅这些领域的文章&#xff0c;还是要参与相关任务&#xff0c;你马上就会遇到一些拦路虎&#xff1a;想过滤垃圾邮件&#xff0c;不具备概率论中的贝叶斯思维恐怕不行&#xff1b;想试…

Tablestore + Blink实战:交易数据的实时统计

背景 交易数据的实时统计是电商网站一个核心功能&#xff0c;可以帮助用户实时统计网站的整体销售情况&#xff0c;快速验证“新销售策略”的效果。我们今天介绍一个基于表格存储(Tablestore)实现交易数据的实时计算&#xff0c;给大家提供一个新使用方式。 Tablestore作为在…

无标注数据是鸡肋还是宝藏?阿里工程师这样用它

阿里妹导读&#xff1a;针对业务场景中标注数据不足、大量的无标注数据又难以有效利用的问题&#xff0c;我们提出了一种面向行为序列数据的深度学习风控算法 Auto Risk&#xff0c;提出通过代理任务从无标注数据中学习通用的特征表示。这种思想与目前 NLP 领域前沿的 Bert 等预…

Android 控件 - TextView

1、TextView https://www.bilibili.com/video/BV13y4y1E7pF?p3 1.1、layout_width、layout_height match_parent&#xff1a;表示让当前控件的大小和父布局的大小一样&#xff0c;也就是由父布局来决定当前控件的大小 wrap_content&#xff1a;表示让当前的控件大小能够刚好…

为什么选择Cassandra

cassandra概况 为什么选择Cassandra&#xff1f;cassandra到底有那些令人印象深刻的特点呢&#xff1f;不防我们先来看下cassandra目前的大体概况。 理论扎实&#xff0c;师出名门 cassandra不仅吸收了dynamo论文中的如何做分布式&#xff0c;如何做副本复制&#xff0c;故障…

加速开放混合云技术开发,满足客户新需求,红帽打出这套组合拳!

云计算发展有几十年的历史了&#xff0c;随着科技的进步和发展&#xff0c;云技术慢慢渗透到各行各业&#xff0c;企业上云也不再是新鲜事&#xff0c;据《2020-2026年中国云计算行业市场分析预测及战略咨询研究报告》数据显示&#xff1a;2018年&#xff0c;以IaaS、PaaS和Saa…

系统性能提升利刃 | 缓存技术使用的实践与思考

导读 按照现在流行的互联网分层架构模型&#xff0c;最简单的架构当属Web响应层DB存储层的架构。从最开始的单机混合部署Web和DB&#xff0c;到后来将二者拆分到不同物理机以避免共享机器硬件带来的性能瓶颈&#xff0c;再随着流量的增长&#xff0c;Web应用变为集群部署模式&…

Android 控件 - Button

1、Button 1.1、新建 mybutton 模块 在原有项目基础上新建 mybutton项目 1.2、Button基础 在源码中Button继承TextView&#xff0c;所以TextView有的功能Button基本都有&#xff0c;重复功能不在赘述 1.2.1 设置button背景颜色 当使用background不起作用时&#xff0c…