Pandas常见函数

Pandas 是 Python 中用于数据分析和处理的强大工具库。以下是 Pandas 中一些常见的函数和方法,按用途分类总结:


1. 数据创建

  • pd.Series(data, index):创建一维的序列对象。
  • pd.DataFrame(data, index, columns):创建二维的DataFrame。
  • pd.read_csv(filepath):从CSV文件中读取数据。
  • pd.read_excel(filepath, sheet_name):从Excel文件中读取数据。
  • pd.DataFrame.from_dict(data):从字典创建DataFrame。

2. 数据查看

  • df.head(n):查看前 n 行数据。
  • df.tail(n):查看后 n 行数据。
  • df.shape:返回数据的行数和列数。
  • df.info():获取数据的基本信息。
  • df.describe():对数值列进行统计汇总(均值、中位数等)。
  • df.columns:查看列名。
  • df.dtypes:查看每列的数据类型。

3. 数据选择与过滤

  • df['col_name']:选择单列数据,返回Series。
  • df[['col1', 'col2']]:选择多列数据,返回DataFrame。
  • df.iloc[row_idx, col_idx]:基于索引位置选择数据。
  • df.loc[row_label, col_label]:基于标签选择数据。
  • df[df['col_name'] > value]:基于条件过滤数据。

4. 数据清洗

  • df.isnull():检查缺失值,返回布尔值DataFrame。
  • df.notnull():检查非缺失值。
  • df.dropna(axis=0/1):删除缺失值所在的行或列。
  • df.fillna(value):填充缺失值。
  • df.replace(old_value, new_value):替换指定值。
  • df.duplicated():检查重复行。
  • df.drop_duplicates():删除重复行。

5. 数据操作

数据修改

  • df['new_col'] = value:添加新列。
  • df.rename(columns={'old': 'new'}):重命名列名。
  • df.set_index('col_name'):设置某列为索引。
  • df.reset_index():重置索引。

数据排序

  • df.sort_values(by='col_name', ascending=True):按列排序。
  • df.sort_index():按索引排序。

数据分组

  • df.groupby('col_name').sum():按列分组并求和。
  • df.groupby('col_name').agg({'col1': 'mean', 'col2': 'sum'}):自定义分组聚合。

数据合并

  • pd.concat([df1, df2], axis=0):按行或列拼接数据。
  • pd.merge(df1, df2, on='col_name', how='inner'):按键合并数据。
  • df.join(other_df):按索引合并数据。

6. 数据分析

  • df['col_name'].value_counts():统计每个值的出现次数。
  • df['col_name'].unique():查看唯一值。
  • df['col_name'].nunique():统计唯一值个数。
  • df.corr():计算相关系数。
  • df.cov():计算协方差。
  • df.pivot_table(values, index, columns, aggfunc):生成透视表。

7. 数据输出

  • df.to_csv('output.csv', index=False):导出到CSV文件。
  • df.to_excel('output.xlsx', index=False):导出到Excel文件。
  • df.to_json('output.json'):导出为JSON文件。

这些函数和方法覆盖了数据处理的主要场景,可以帮助快速完成数据的加载、清理、分析和输出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/889499.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法分析与设计之分治算法

文章目录 前言一、分治算法divide and conquer1.1 分治定义1.2 分治法的复杂性分析:递归方程1.2.1 主定理1.2.2 递归树法1.2.3 迭代法 二、典型例题2.1 Mergesort2.2 Counting Inversions2.3 棋盘覆盖2.4 最大和数组2.5 Closest Pair of Points2.6 Karatsuba算法&am…

Ubuntu 安装 Samba Server

在 Mac 上如何能够与Ubuntu 服务器共享文件夹,需要在 Ubuntu 上安装 Samba 文件服务器。本文将介绍如何在 Ubuntu 上安装 Samba 服务器从而达到以下目的: Mac 与 Ubuntu 共享文件通过用户名密码访问 安装 Samba 服务 sudo apt install samba修改配置文…

计算机毕设-基于springboot的青少年心理健康教育网站的设计与实现(附源码+lw+ppt+开题报告)

博主介绍:✌多个项目实战经验、多个大型网购商城开发经验、在某机构指导学员上千名、专注于本行业领域✌ 技术范围:Java实战项目、Python实战项目、微信小程序/安卓实战项目、爬虫大数据实战项目、Nodejs实战项目、PHP实战项目、.NET实战项目、Golang实战…

redis 怎么样删除list

在 Redis 中,可以使用以下方法删除列表或列表中的元素: 1. 删除整个列表 使用 DEL 命令删除一个列表键: DEL mylist这个命令会删除键 mylist 及其值(无论 mylist 是一个列表还是其他类型的键)。 2. 删除列表中的部分…

解读数据资产管理实践白皮书(5.0版)深入学习掌握数据资产管理知识体系。

本文介绍了数据资产管理的重要性及其概述,详细阐述了数据资产管理的活动职能包括数据模型管理、数据标准管理、数据质量管理等,并强调了数据安全管理的重要性。文章还讨论了数据资产管理的保障措施和实践步骤,以及发展趋势和总结展望。 重点内…

深入探索 jQuery:解锁前端开发的高效工具

深入探索 jQuery:解锁前端开发的高效工具 在现代Web开发中,jQuery无疑是一个不可或缺的工具。它简化了HTML文档遍历、事件处理、动画和Ajax交互等任务,使得开发者能够更专注于逻辑和用户体验的实现。本文将详细介绍一些常用的jQuery方法&…

过滤器与ajax异步

探索 Java Web 开发中的过滤器与 Ajax 异步请求 在 Java Web 开发的世界里,过滤器(Filter)和 Ajax 异步请求犹如两把利器,为我们打造高效、安全且用户体验良好的 Web 应用提供了强大的支持。今天,就让我们深入了解这两…

百度23届秋招前端岗

百度23届秋招前端岗 2024/12/13 1.小红的01串 小红拿到了一个01串,她每次可以选择一个长度为2的连续子串取反(0变1,1变0),她想知道,是否能在有限的操作次数内使得所有字符相同?共有&#x1…

OCR 技术在验证码识别中的应用

OCR 技术在验证码识别中的应用 一、验证码识别的背景与挑战二、OCR 技术简介三、验证码识别的环境搭建四、使用 OCR 进行验证码识别的方法五、DdddOcr 子项在验证码识别中的应用六、验证码识别的应用场景与注意事项七、总结 在当今数字化时代,验证码作为一种安全验证…

Elasticsearch 集群部署

Elasticsearch 是一个分布式的搜索和分析引擎,广泛应用于日志分析、全文搜索、实时数据分析等场景。它以其高性能、高可用性和易用性而著称。本文档将引导您完成一个基本的 Elasticsearch 集群配置,包括节点间的通信、客户端访问、安全设置等关键步骤。我…

解决Java连接MySQL 错误:Public Key Retrieval is not allowed

在使用 Java 的 JDBC 驱动(如 MySQL Connector/J)连接 MySQL 数据库时,可能会遇到以下错误提示: Public Key Retrieval is not allowed 错误原因 此问题通常与 MySQL 默认的身份验证插件 caching_sha2_password 有关。当 MySQ…

Axios结合Typescript 二次封装完整详细场景使用案例

Axios 是一个基于 promise 的 HTTP 客户端,用于浏览器和 node.js。二次封装 Axios 主要是为了统一管理 HTTP 请求,例如设置统一的请求前缀、头部、超时时间,统一处理请求和响应的格式,以及错误处理等。 以下是一个使用 TypeScrip…

VSCode,Anaconda,JupyterNotebook

文章目录 一. 下载VSCode并安装二. 下载Anaconda并安装1. anaconda介绍2. Anaconda的包管理功能3. Anaconda的虚拟环境管理4.Jupyter Notebook5. Jupyter Notebook使用简介6. Jupyter Notebook快捷键7.Jupyter notebook的功能扩展8. Jupyter notebook和Jupyter lab的区别 三. V…

【Linux】Nginx一个域名https一个地址配置多个项目【项目实战】

👨‍🎓博主简介 🏅CSDN博客专家   🏅云计算领域优质创作者   🏅华为云开发者社区专家博主   🏅阿里云开发者社区专家博主 💊交流社区:运维交流社区 欢迎大家的加入&#xff01…

AI大模型学习笔记|神经网络与注意力机制(逐行解读)

来源分享链接:通过网盘分享的文件:详解神经网络是如何训练的 链接: https://pan.baidu.com/s/12EF7y0vJfH5x6X-0QEVezg 提取码: k924 内容摘要:本文深入探讨了神经网络与注意力机制的基础,以及神经网络参数训练的过程。以鸢尾花数…

NFT与NFT数据的区别

NFT与NFT数据的区别 NFT与NFT数据的区别 NFT(非同质化代币) NFT是一种基于区块链技术的数字资产。它具有独一无二的特性,就像现实生活中的艺术品原作,每一个NFT都有其独特的标识,无法被其他资产替代。例如,一幅数字画作以NFT的形式存在,它的所有权信息、创作背景、作者签…

递归 | 迭代 | 栈溢出

让我用简单的例子来解释递归和迭代的区别: 递归(Recursion): 函数调用自身来解决问题像是一个套娃过程,每次都把问题变小一点需要有终止条件(不然会无限调用下去) 举个计算阶乘的例子&#x…

Linux dd命令读写flash之误区

1. 问题 通常在Linux系统上需使用dd命令读写flash设备,个人最近调试了一款spi-nor flash芯片,分区分配了8MB大小的分区,是用dd命令验证读写flash时,出现校验失败。 使用如下命令读写8KB数据就会出现校验数据失败 time dd if/dev…

大数据挖掘建模平台案例分享

大数据挖掘建模平台是由泰迪自主研发,面向企业级用户的大数据挖掘建模平台。平台采用可视化操作方式,通过丰富内置算法,帮助用户快速、一站式地进行数据分析及挖掘建模,可应用于处理海量数据、高复杂性的数据挖掘任务,…

顺序表(数据结构初阶)

文章目录 顺序表一:线性表1.1概念: 二:顺序表2.1概念与结构:2.2分类:2.2.1静态顺序表2.2.2动态顺序表 2.3动态顺序表的实现声明(初始化)检查空间容量尾插头插尾删头删查找指定位置之前插入数据指…