【科学计算与可视化】2. pandas 基础

1. 安装 Pandas

首先,确保你已经安装了 Pandas。你可以使用以下命令安装:pip install pandas

2. 导入 Pandas

在开始使用 Pandas 之前,你需要先导入它:import pandas as pd

3. 创建数据结构

Pandas 主要有两种数据结构:SeriesDataFrame

3.1 Series

Series 是一个一维的标签数组,类似于 Python 的列表或字典。

import pandas as pd
s = pd.Series([1,2,3, np.nan, 6, 8, None], dtype=np.float32)
print(s)
s2 = pd.Series([100, 200, 300, 400], ["A", "B", "C", "D"])  # pd.Series(data, index)  data 与 index 必须都是一维的
print(s2)
s2.to_csv("s2.csv")  # 将数据保存为 csvs3 = pd.Series(np.arange(12))   # 从 ndarray 创建
s4 = pd.Series({"a": 1, "b": 2, "c": 3})  # 从字典创建
s5 = pd.Series(5, ["a", "b", "c"])  # 从标量值 创建
print(s5['a'])  # Series 中数组的访问 类似于 python 中字典的访问

3.2 DataFrame

DataFrame 是一个二维的标签数据结构,类似于电子表格或 SQL 表格。

# 创建一个 DataFrame
data = {"A": [1, 2, 3, 4, 5],"B": [6, 7, 8, 9, 10],"C": [11, 12, 13, 14, 15]
}
df = pd.DataFrame(data)
print(df)# 使用多个 series 来构建  series 中可以缺少数据
df2 = pd.DataFrame({'name': pd.Series(["Tom", "Nick", "John", "Tom", "John"], index = ["A", "B", "C", "D", "E"]),'age': pd.Series([20, 21, 19, 22,], index = ["A", "B", "C", "D"]),'gender': pd.Series(["M", "M", "M", "F", "F"], index = ["A", "B", "C", "D", "E"])
})
print(df2)# 使用字典来创建   维度需要与 index 对应
df3 = pd.DataFrame({'name': ["Tom", "Nick", "John", "Tom", "John"],'age': [20, 21, 19, 22, 18],'gender': ["M", "M", "M", "F", "F"]
}, index=["A", "B", "C", "D", "E"])
print(df3)
# 访问数据
print(df3["name"]) # 访问列 返回一个对象 
print(dict(df3["name"])) # 可以将对象转为数组
print(df3.loc["A"]) # 访问行 返回一个对象
print(df3.iloc[0]) # 访问行 返回一个对象print(df3.loc[["A", "C"], ["name", "age"]]) # 指定 行列 返回 一个 DataFrame 对象
df3[df3['age'] > 20] # 可以指定列条件来筛选
df3[(df3['age'] > 20) & (df3['age'] < 22)] # 可以使用逻辑运算符来拼接多个添加 & | 
df3.reset_index() # reset_index用于重置索引,原有的索引存在一个新的 index 列中,新索引从 0 开始
df3.set_index("name") # set_index用于设置索引,原有的索引被替换为新的索引

4. 数据读取和写入

Pandas 支持读取和写入多种文件格式,如 CSV、Excel、SQL 等。

4.1 读取数据

# 读取 CSV 文件
df = pd.read_csv('data.csv')# 读取 Excel 文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')   # sheet_name 用于指定读取哪一个子表

4.2 写入数据

# 写入 CSV 文件
df.to_csv('output.csv', index=False)# 写入 Excel 文件
df.to_excel('output.xlsx', sheet_name='Sheet1', index=False)

5. 数据查看和检查

5.1 查看数据

# 显示前几行数据
print(df.head())
# 显示最后几行数据
print(df.tail())

5.2 检查数据

# 查看 DataFrame 的形状
print(df.shape)
# 查看列名
print(df.columns)
# 查看数据类型
print(df.dtypes)
# 查看数据信息
print(df.info())
# 查看数据描述性统计信息
print(df.describe())

6. 数据选择和过滤

6.1 选择数据

# 选择单列数据
print(df['A'])
# 选择多列数据
print(df[['A', 'B']])

6.2 选择行数据

# 按行号选择
print(df.iloc[0])
# 按标签选择
print(df.loc[0])

6.3 条件选择

# 选择满足条件的行
print(df[df['A'] > 2])

7. 数据清洗

7.1 处理缺失值

# 检查缺失值
print(df.isnull())
# 删除包含缺失值的行
df = df.dropna()
# 填充缺失值
df = df.fillna(0)

7.2 处理重复值

# 检查重复值
print(df.duplicated())
# 删除重复值
df = df.drop_duplicates()

8. 数据操作

8.1 增加数据

df4 = pd.DataFrame(np.arange(12).reshape(3,4), index=["A", "B", "C"], columns=["A", "B", "C", "D"])
# 通过运算增加新列
df4["E"] = df4["A"] + df4["D"]
print(df4)# 使用 series创建
df4["F"] = pd.Series(["F", "F", "F"], index=["A", "B", "C"])
print(df4)# 增加行  concat 函数
new_row = pd.DataFrame({"A": [20],"B": [21],"C": [22],"D": [23]
})
df4 = pd.concat([df4, new_row], ignore_index=True)

8.2 删除数据

df4.drop("F", axis=1) # axis = 1 删除列  axis 不填 默认为 1
df4.drop("A", axis=0) # axis = 0 删除行
# drop默认不会改变原有 DataFrame 对象,而是返回一个新的 DataFrame 对象, 当我们需要改变原有对象的时候 我们可以添加 inplace=True 的参数df4.drop("F", axis=1, inplace=True)

8.3 数据排序

# 按单列排序
df = df.sort_values(by='A')# 按多列排序
df = df.sort_values(by=['A', 'B'], ascending=[True, False])

9. 数据分组和聚合

9.1 分组

分组通常使用 groupby 方法来实现 这个方法允许你将数据分成不同的组,然后对每个组独立地进行操作

import pandas as pd# 创建一个 DataFrame
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],'C': [1, 3, 2, 5, 4, 1, 2, 3],'D': [4, 2, 5, 5, 6, 1, 2, 3]
})
print(df)# 按列 'A' 进行分组
grouped = df.groupby('A')# 显示分组
for name, group in grouped:print(name)print(group)

9.2 聚合

# 计算每个分组中  “C" 列的平均值
print(grouped['C'].mean())
‘’‘
A 
bar 3.0 
foo 2.4
’‘’
# 对 grouped 的每一列求和 
print(grouped.sum())
‘’‘
A    B                C D 
bar onethreetwo       9 8 
foo onetwotwoonethree 12 20
’‘’# 使用 agg 应用多个聚合函数 
aggregated = grouped['C'].agg(['sum', 'mean'])
print(aggregated)#也可以使用多个 key 作为键
# 使用多个列作为分组键
grouped = df.groupby(['A', 'B'])# 显示分组
for (name1, name2), group in grouped:print((name1, name2))print(group)

10. 数据可视化

Pandas 集成了 Matplotlib,可以很方便地进行数据可视化。 关于数据可视化将在后续博客更新

import matplotlib.pyplot as plt# 创建一个简单的折线图
df.plot()
plt.show()# 创建一个柱状图
df.plot(kind='bar')
plt.show()

11. 高级操作

11.1 合并数据

df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['A', 'B', 'D'], 'value': [4, 5, 6]})# 内连接只保留两个 DataFrame 中都有的键(‘key’ 列)的行
merged_df = pd.merge(df1, df2, on='key', how='inner') 
print(merged_df)# 外连接会保留两个 DataFrame 中所有的键。如果某个键只在一个 DataFrame 中存在,那么结果中该键的对应行会在另一个 DataFrame 的列上填充 NaN(表示缺失值)。
merged_df = pd.merge(df1, df2, on='key', how='outer')
print(merged_df)

11.2 应用函数

# 对列应用函数
df['A'] = df['A'].apply(np.sqrt)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/32877.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于动力学的六自由度机器人阻抗恒力跟踪控制

1.整个代码的控制流程图如下&#xff1a; 2.正逆运动学计算 略 3.动力学模型 采用拉格朗日法计算机械臂的动力学模型&#xff0c;其输入的是机械臂的关节角度、角速度和角加速度&#xff1b;其中M、C、G本别是计算的惯性力、科式力和重力项&#xff0c;相关部分如下&#xf…

JavaScript的学习之运算符

目录 一、运算符的介绍 二、算数运算符 三、一元运算符 一、运算符的介绍 运算符也称操作符&#xff0c;通过运算符可以对一个或者多个值进行运算&#xff0c;并获得结果 比如&#xff1a;typeof就是运算符&#xff0c;可以获得一个值的类型&#xff0c;它会将改值的类型以字…

Android SurfaceFlinger——HWC图层合成器加载(四)

在前面文章中的 Android.bp 文件中,我们可以看到里面加载了图层合成器和图形内存分配器的 HAL 服务,这里篇我们就来详细介绍一下其中的图层合成器——HWC。 一、HWC简介 HWC,全称为 Hardware Composer,是 Android 系统中一个至关重要的组件,位于硬件抽象层(HAL)。它的主…

JavaScript 中并发任务控制

目录 并发控制简介 并发控制的实现 asyncPool 的使用 功能 asyncPool ES9 实现 从 1.x 迁移 asyncPool ES9 为什么只用 Promise.race 而不用 Promise.all Promise.all的作用 Promise.race的作用 为什么这里没有使用Promise.all 总结 手写Promise.all和Promise.race…

自学前端——HTML篇

HTML标签 ’HTML‘全程是‘hypertext Markup langage(超文本标记语言) HTML通过一系列的’标签&#xff08;也称为元素&#xff09;‘来定义文本、图像、链接。HTML标签是由尖括号包围的关键字。 标签通常成对存在&#xff0c;包括开始标签和结束标签&#xff08;也称为双标签…

ModbusTcp和ModbusRtu协议

1、功能码的通信格式modbus rtu (1)读设备的寄存器(保持寄存器): 计算机发送命令:[设备地址] [命令号03] [起始寄存器地址高8位] [低8位] [读取的寄存器数高8位] [低8位] [CRC校验的低8位] [CRC校验的高8位] 例:[01][03][00][00][00][10][CRC低][CRC高] 意义如下: &l…

安卓中使用ttf字体文件

官方文档中提供的方法要设备能访问google&#xff1f; 官方方法 直接下载字体的fft文件 我要使用的是lexend 需要的格式可以在里面搜索 使用下载的ttf文件 解压出来 可以单独使用static里面的&#xff0c;里面是直接的lexend的各种格式 但是我这里直接使用Lexend-Vari…

odoo的采购询价单,默认情况下显示‘draft‘,‘sent‘,‘purchase‘,请问什么情况下才会显示‘to approve‘?

odoo的采购询价单&#xff0c;默认情况下显示’draft’,‘sent’,‘purchase’&#xff0c;请问什么情况下才会显示’to approve’? 见下图&#xff1a; 这与操作人员的角色是相关的&#xff1a; 当操作人员是群组 “采购 / 用户”时&#xff0c;点击“confirm order/确认订…

Day59 代码随想录打卡|二叉树篇---把二叉搜索树转换为累加树

题目&#xff08;leecode T538&#xff09;&#xff1a; 给出二叉 搜索 树的根节点&#xff0c;该树的节点值各不相同&#xff0c;请你将其转换为累加树&#xff08;Greater Sum Tree&#xff09;&#xff0c;使每个节点 node 的新值等于原树中大于或等于 node.val 的值之和。…

vuex的深入学习[基于vuex3]----篇(二)

store对象的创建 store的传递图 创建语句索引 创建vuex的语句为new Vuex.Store({…})Vuex的入口文件是index.js,store是index.js导出的store类store类是store.js文件中定义的。 Store的构造函数constructor 判断vuex是否被注入&#xff0c;就是将vue挂载在window对象上&am…

【算法】二叉树 - 理论基础

1.种类 1.1 满二叉树 只有度为0和2的节点&#xff0c;且度为0的节点都都在同一层。深度为k&#xff0c;有2^k-1个节点。 1.2 完全二叉树 在完全二叉树中&#xff0c;除了最底层节点可能没填满外&#xff0c;其余每层节点数都达到最大值&#xff0c;并且最下面一层的节点都…

【QML】用 Image(QQuickPaintedItem) 显示图片

大体功能&#xff1a; 频繁地往界面推送图片&#xff0c;帧率达到视频效果。捕获画布上的鼠标事件和键盘事件。 代码如下&#xff1a; // DrawImageInQQuickPaintedItem.pro 代码如下&#xff1a; QT quick# You can make your code fail to compile if it uses deprecated…

常说的云VR是什么意思?与传统vr的区别

虚拟现实&#xff08;Virtual Reality&#xff0c;简称VR&#xff09;是一种利用计算机技术模拟产生一个三维空间的虚拟世界&#xff0c;让用户通过视觉、听觉、触觉等感官&#xff0c;获得与现实世界类似或超越的体验。VR技术发展历程可追溯至上世纪&#xff0c;经历概念提出、…

某大厂程序员吐槽:离职交接时,新人被工作量吓退,领导却污蔑我故意劝退新人,我怒晒工作短信反击证明,新人看了后也决定走人了!

一位知名大公司的程序员分享了他离职时的遭遇&#xff1a;在交接工作时&#xff0c;新进的同事因工作量过大而感到压力&#xff0c;但出乎意料的是&#xff0c;他们的领导却指责我故意吓唬新人。为了证明自己的清白&#xff0c;我晒出了工作短信作为反击&#xff0c;结果连新人…

Linux系统编程--软/硬连接

真正找到磁盘上文件的并不是文件名&#xff0c;而是inode。 其实在linux中可以让多个文件名对应于同一个inode。 命令&#xff1a; 软连接&#xff1a;ln -s 原文件名 新文件名 硬链接&#xff1a;ln 原文件名 新文件名 删除链接文件&#xff1a;unlink 文件名执行上面两条命令…

matplotlib之常见图像种类

Matplotlib 是一个用于绘制图表和数据可视化的 Python 库。它支持多种不同类型的图形&#xff0c;以满足各种数据可视化需求。以下是一些 Matplotlib 支持的主要图形种类&#xff1a; 折线图&#xff08;Line Plot&#xff09;&#xff1a; 用于显示数据随时间或其他连续变量的…

Git使用过程中涉及的几个区域

一. 简介 Git 是一个开源的分布式版本控制系统&#xff0c;可以有效、高速的处理从很小到非常大的项目版本管理&#xff0c;也是 Linus Torvalds 为了帮助管理 Linux内核开发而开发的一个开放源码的版本控制软件。 本文简单了解一下 git涉及的几个部分&#xff0c;以及git 常…

vue登陆密码加密,java后端解密

前端 安装crypto-js npm install crypto-js加密 //引入crypto-js import CryptoJS from crypto-js;/** ---密码加密 start--- */ const SECRET_KEY CryptoJS.enc.Utf8.parse("a15q8f6s5s1a2v3s"); const SECRET_IV CryptoJS.enc.Utf8.parse("a3c6g5h4v9sss…

基于网络搜索的长篇问答能力优化:FoRAG

检索增强生成&#xff08;RAG&#xff0c;Retrieval Augmented Generation&#xff09;可以利用搜索引擎检索技术来提升长篇问答质量&#xff0c;因而在 QA 任务中广受欢迎。尽管有多种开源方法和网络增强的商业系统如 Bing Chat 出现&#xff0c;但生成长篇答案的事实性和逻辑…

ruoyi添加自己的菜单

先把自己自定义的view填写好 在菜单管理模块 因为我已经新增过&#xff0c;所以就看看我填的啥就行了 我发现一个问题&#xff0c;路由地址可以填index2或者scooldemo/index2都可以&#xff08;这个包含了文件夹路径&#xff09;&#xff0c;反正组件路径一定要填对就可以了。 …