Python库常用函数-数据分析

Python库常用函数

1.pandas库
(1)数据读取与写入
读取 CSV 文件:

data = pd.read_csv('file.csv')

读取 Excel 文件:

data = pd.read_excel('file.xlsx', sheet_name='Sheet1')

写入 CSV 文件:

data.to_csv('new_file.csv', index=False)

写入 Excel 文件:

data.to_excel('new_file.xlsx', sheet_name='Sheet1', index=False)

(2)数据查看与探索
查看数据前几行:

data.head(n)(n为要查看的行数,默认为 5)

查看数据基本信息(列名、数据类型、非空值数量等):

data.info()

查看数据统计描述(计数、均值、标准差、最小值、最大值等):

data.describe()

获取数据形状(行数和列数):

data.shape

获取列名列表:

data.columns

(3)数据选择与过滤
按列名选择单列:

column_data = data['column_name']

按列名选择多列:

selected_data = data[['column1', 'column2', 'column3']]

按行索引选择单行:

row_data = data.loc[index]

按行索引选择多行:

selected_rows = data.loc[start_index:end_index]

按条件过滤数据:

filtered_data = data[data['column_name'] > value]

(4)数据处理与清洗
删除包含缺失值的行:

data.dropna(axis=0, how='any', inplace=True)(axis=0表示按行操作,how='any'表示只要有一个缺失值就删除该行,inplace=True表示直接在原数据上修改)

删除包含缺失值的列:

data.dropna(axis=1, how='any', inplace=True)

填充缺失值:

data.fillna(value, inplace=True)(value为要填充的值)

数据去重:

data.drop_duplicates(subset=['column1', 'column2'], keep='first', inplace=True)(subset指定要根据哪些列去重,keep='first'表示保留第一次出现的重复行)

数据类型转换:

data['column_name'] = data['column_name'].astype('new_type')(new_type可以是int、float、str等)

(5)数据分组与聚合
按列分组并计算某列的总和:

grouped_data = data.groupby('group_column')['sum_column'].sum()

按列分组并计算多个聚合函数:

grouped_data = data.groupby('group_column').agg({'sum_column': 'sum', 'count_column': 'count'})

(6)数据合并与连接
按索引合并两个数据框:

merged_data = pd.merge(data1, data2, left_index=True, right_index=True)

按指定列合并两个数据框:

merged_data = pd.merge(data1, data2, on='common_column')

2.numpy库
(1)创建数组
创建一维数组:

arr = np.array([1, 2, 3, 4, 5])

创建二维数组:

arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

(2)数组基本操作
获取数组形状:

arr.shape

获取数组维度:

arr.ndim

获取数组元素个数:

arr.size

数组索引与切片(与 Python 列表类似)

(3)数组计算与统计
数组元素求和:

np.sum(arr)

数组元素均值:

np.mean(arr)

数组元素标准差:

np.std(arr)

数组元素最大值:

np.max(arr)

数组元素最小值:

np.min(arr)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/888489.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ消息可靠性保证机制5--消息幂等性处理

RabbitMQ层面有实现“去重机制”来保证“恰好一次”吗?答案是没并没有,而且现在主流的消息中间件都没有实现。 一般解决重复消息的办法是:在消费端让我们消费消息操作具有幂等性。 幂等性问题并不是消息系统独有,而是&#xff0…

Day28 买卖股票的最佳时机 跳跃游戏 跳跃游戏 II K 次取反后最大化的数组和

贪心算法 part02 122. 买卖股票的最佳时机 II - 力扣&#xff08;LeetCode&#xff09; 求最大利润 将每天的正利润加和 public int maxProfit(int[] prices) {int totalPrices 0;for(int i0;i<prices.length;i){if(i<prices.length-1&&prices[i1]>prices[…

MINDAGENT:游戏交互中的新兴性设计

一、摘要 1.问题/研究背景 LLM具有在多智能体系统中执行复杂调度的能力&#xff0c;并可以协调这些代理以完成需要广泛合作的复杂任务。 但是&#xff0c;目前还没有一个标准的游戏场景和相关的测试指标来评估 LLM 在游戏中的表现以及与人类玩家的合作能力。 2.研究目标/动…

洛谷P1827 [USACO3.4] 美国血统 American Heritage(c嘎嘎)

题目链接&#xff1a;P1827 [USACO3.4] 美国血统 American Heritage - 洛谷 | 计算机科学教育新生态 题目难度&#xff1a;普及 首先介绍下二叉树的遍历&#xff1a; 学过数据结构都知道二叉树有三种遍历&#xff1a; 1.前序遍历&#xff1a;根左右 2.中序遍历&#xff1a;左根…

『数据结构』空间复杂度

&#x1f6a9; WRITE IN FRONT &#x1f6a9; &#x1f50e; 介绍&#xff1a;"謓泽"正在路上朝着"攻城狮"方向"前进四" &#x1f50e;&#x1f3c5; 荣誉&#xff1a;2021|2022年度博客之星物联网与嵌入式开发TOP5|TOP4、2021|2222年获评…

这就是AOP

AOP AOP(Aspect Oriented Programming,面向切面编程)是一种编程范式,它的目的是通过分离横切关注点(cross-cutting concerns)来提升代码的模块化程度,AOP 的概念最早是由 Xerox PARC 提出的,它并非站在 OOP 的对立面,而是对 OOP 的一个很好的补充。Spring Framework …

多模态COGMEN详解

✨✨ 欢迎大家来访Srlua的博文&#xff08;づ&#xffe3;3&#xffe3;&#xff09;づ╭❤&#xff5e;✨✨ &#x1f31f;&#x1f31f; 欢迎各位亲爱的读者&#xff0c;感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢&#xff0c;在这里我会分享我的知识和经验。&am…

STM32 进阶 定时器3 通用定时器 案例2:测量PWM的频率/周期

需求分析 上一个案例我们输出了PWM波&#xff0c;这个案例我们使用输入捕获功能&#xff0c;来测试PWM波的频率/周期。 把测到的结果通过串口发送到电脑&#xff0c;检查测试的结果。 如何测量 1、输入捕获功能主要是&#xff1a;测量输入通道的上升沿和下降沿 2、让第一个…

重生之我在异世界学编程之C语言:操作符篇

大家好&#xff0c;这里是小编的博客频道 小编的博客&#xff1a;就爱学编程 很高兴在CSDN这个大家庭与大家相识&#xff0c;希望能在这里与大家共同进步&#xff0c;共同收获更好的自己&#xff01;&#xff01;&#xff01; 本文目录 引言正文1. 算术操作符2. 关系&#xff0…

STM32 进阶 定时器 2基本定时器 基本定时器中断案例:LED闪烁

基本定时器 基本定时器TIM6和TIM7各包含一个16位自动装载计数器&#xff0c;由各自的可编程预分频器驱动。 这2个定时器是互相独立的&#xff0c;不共享任何资源。 这个2个基本定时器只能向上计数&#xff0c;由于没有外部IO&#xff0c;所以只能计时&#xff0c;不能对外部…

git 常见使用

在使用 git 时&#xff0c;可以通过以下命令更新和拉取远程仓库的最新代码&#xff1a; 基本步骤 确保在正确的分支&#xff1a; 检查当前所在分支&#xff1a; git branch如果需要切换到其他分支&#xff1a; git checkout 分支名更新远程仓库信息&#xff1a; 拉取远程仓库的…

部门管理系统Spring AOP实现日志记录接口案例开发

需求分析 在开发过程中&#xff0c;为了记录系统操作行为&#xff0c;我们通常需要实现操作日志功能。本案例要求对系统中增、删、改等接口的操作日志记录到数据库表中&#xff0c;具体需求包括&#xff1a; 日志内容&#xff1a; 操作人&#xff08;从请求头中的 Token 中解析…

OpenVas安装步骤及报错问题

安装步骤 1、更新系统 apt update && apt upgrade && apt dist-upgrade 2、安装openvas apt-get install openvas 3、初始化 gvm-setup 时间要很久 4、检查安装结果 gvm-check-setup 安装成功 5、设置用户名和密码&#xff0c;都为admin sudo runuse…

深度学习之pth转换为onnx时修改模型定义‌

文章目录 概述实现步骤python代码 概述 在将PyTorch模型&#xff08;.pth文件&#xff09;转换为ONNX格式时&#xff0c;通常的转换过程是通过torch.onnx.export函数来实现的。这个过程主要是将PyTorch模型的计算图导出为ONNX格式&#xff0c;以便在其他框架或环境中使用。 在…

STL算法之sort

STL所提供的各式各样算法中&#xff0c;sort()是最复杂最庞大的一个。这个算法接受两个RandomAccessIterators(随机存取迭代器)&#xff0c;然后将区间内的所有元素以渐增方式由小到大重新排列。还有一个版本则是允许用户指定一个仿函数代替operator<作为排序标准。STL的所有…

解决Tomcat运行时错误:“Address localhost:1099 is already in use”

目录 背景: 过程&#xff1a; 报错的原因&#xff1a; 解决的方法&#xff1a; 总结&#xff1a; 直接结束Java.exe进程&#xff1a; 使用neststat -aon | findstr 1099 命令&#xff1a; 选择建议&#xff1a; 背景: 准备运行Tomcat服务器调试项目时&#xff0c;程序下…

AJAX三、XHR,基本使用,查询参数,数据提交,promise的三种状态,封装-简易axios-获取省份列表 / 获取地区列表 / 注册用户,天气预报

一、XMLHttpRequest基本使用 XMLHttpRequest&#xff08;XHR&#xff09;对象用于与服务器交互。 二、XMLHttpRequest-查询参数 语法: 用 & 符号分隔的键/值对列表 三、XMLHttpRequest-数据提交 核心步骤 : 1. 请求头 设置 Content-Type 2. 请求体 携带 符合要求 的数…

矩阵加法        ‌‍‎‏

矩阵加法 C语言代码C 语言代码Java语言代码Python语言代码 &#x1f490;The Begin&#x1f490;点点关注&#xff0c;收藏不迷路&#x1f490; 输入两个n行m列的矩阵A和B&#xff0c;输出它们的和AB。 输入 第一行包含两个整数n和m&#xff0c;表示矩阵的行数和列数。1 <…

flink-connector-mysql-cdc:01 mysql-cdc础配置代码演示

flink-connector-mysql-cdc&#xff1a; 01 mysql-cdc基础配置代码演示02 mysql-cdc高级扩展03 mysql-cdc常见问题汇总04 mysql-cdc-kafka生产级代码分享05 flink-kafka-doris生产级代码分享06 flink-kafka-hudi生产级代码分享 flink-cdc版本&#xff1a;3.2.0 flink版本&…

ELK的Filebeat

目录 传送门前言一、概念1. 主要功能2. 架构3. 使用场景4. 模块5. 监控与管理 二、下载地址三、Linux下7.6.2版本安装filebeat.yml配置文件参考&#xff08;不要直接拷贝用&#xff09;多行匹配配置过滤配置最终配置&#xff08;一、多行匹配、直接读取日志文件、EFK方案&#…