4个解决特定的任务的Pandas高效代码

在本文中,我将分享4个在一行代码中完成的Pandas操作。这些操作可以有效地解决特定的任务,并以一种好的方式给出结果。

从列表中创建字典

我有一份商品清单,我想看看它们的分布情况。更具体地说:希望得到唯一值以及它们在列表中出现的次数。

Python字典是以这种格式存储数据的好方法。键将是字典,值是出现的次数。

这里可以使用value_counts和to_dict函数,这项任务可以在一行代码中完成。

这里有一个简单的例子来说明这种情况:

 importpandasaspdgrades= ["A", "A", "B", "B", "A", "C", "A", "B", "C", "A"]pd.Series(grades).value_counts().to_dict()# output{'A': 5, 'B': 3, 'C': 2}

将列表转换为Pandas Series,这是Pandas的一维数据结构,然后应用value_counts函数来获得在Series中出现频率的唯一值,最后将输出转换为字典。这个操作非常高效且易于理解。

从JSON文件创建DataFrame

JSON是一种常用的存储和传递数据的文件格式。

当我们清理、处理或分析数据时,我们通常更喜欢使用表格格式(或类似表格的数据)。由于json_normalize函数,我们可以通过一个操作从json格式的对象创建Pandas DataFrame。

假设数据存储在一个名为data的JSON文件中。一般情况我们都是这样读取:

 importjsonwithopen("data.json") asf:data=json.load(f)data# output{'data': [{'id': 101,'category': {'level_1': 'code design', 'level_2': 'method design'},'priority': 9},{'id': 102,'category': {'level_1': 'error handling', 'level_2': 'exception logging'},'priority': 8}]}

如果我们将这个变量传递给DataFrame构造函数,它将创建如下的DataFrame,这绝对不是一个可用的格式:

 df=pd.DataFrame(data)

但是如果我们使用json_normalize函数将得到一个整洁的DataFrame格式:

 df=pd.json_normalize(data, "data")

Explode函数

如果有一个与特定记录匹配的项列表。需要重新格式化它,为该列表中的每个项目提供单独的行。

这是一个经典的行分割成列的问题。有许多的不同的方法来解决这个任务。其中最简单的一个(可能是最简单的)是Explode函数。

我们以这个df为例

使用explosion函数并指定列名:

 df_new=df.explode(column="data").reset_index(drop=True)

reset_index会为DataFrame分配一个新的整数索引。

combine_first函数

combine_first函数用于合并两个具有相同索引的数据结构。

它最主要的用途是用一个对象的非缺失值填充另一个对象的缺失值。这个函数通常在处理缺失数据时很有用。在这方面,它的作用与SQL中的COALESCE函数相同。

 df=pd.DataFrame({"A": [None, 0, 12, 5, None], "B": [3, 4, 1, None, 11]})

我们需要a列中的数据。如果有一行缺少值(即NaN),用B列中同一行的值填充它。

 df["A"].combine_first(df["B"])# output0     3.01     0.02    12.03     5.04    11.0Name: A, dtype: float64

可以看到的列A的第一行和最后一行取自列B。

如果我们想要使用3列,我们可以链接combine_first函数。下面的代码行首先检查列a。如果有一个缺失的值,它从列B中获取它。如果列B中对应的行也是NaN,那么它从列C中获取值。

 df["A"].combine_first(df["B"]).combine_first(df["C"])

我们还可以在DataFrame级别使用combine_first函数。在这种情况下,所有缺失的值都从第二个DataFrame的相应值(即同一行,同列)中填充。

 df1=pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}, index=['a', 'b', 'c', 'd'])df2=pd.DataFrame({'A': [10, np.nan, 30, 40], 'B': [50, 60, np.nan, 80]}, index=['a', 'b', 'c', 'd'])result_df=df1.combine_first(df2)

在合并的过程中,

df1

中的非缺失值填充了

df2

中对应位置的缺失值。这有助于处理两个数据集合并时的缺失值情况。

 MergedDataFrame:A     Ba   1.0   5.0b   2.0  60.0c  30.0   7.0d   4.0   8.0

总结

从计算简单的统计数据到高度复杂的数据清理过程,Pandas都可以快速解决任务。上面的代码可能不会经常使用,但是当你需要处理这种任务时,它们是非常好的解决办法。

https://avoid.overfit.cn/post/1e70db7ef5534ff0801316609a1499b1

作者:Soner Yıldırım

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/192550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp 微信小程序连接蓝牙卡死

解决方法,需要同意隐私保护协议,否则不能开启蓝牙权限和定位权限,会导致定位失败

实用工具网站合集值得收藏![搜嗖工具箱]

最近一段时间有点忙,一直没有更新在此给大家说声抱歉哈,有些小伙伴儿私信说想要用到的工具,茶壶儿也会尽可能满足大家!今天我们要分享的工具主要有以下几款,我们来一起看一下吧? 一帧秒创 https://aigc.y…

万界星空科技灯具行业MES介绍

中国是LED照明产品最大的生产制造国,如今,我国初步形成了包括LED外延片的生产、LED芯片的制备、LED芯片的封装以及LED产品应用在内的较为完超为产业链,随着LED照明市场渗诱率的快速警升,LED下游应用市场将会越来越广阔。这也将推动…

电机工厂怎么才能有效的管理生产?

电机工厂要想更有效地管理,可以从以下几个方面入手:采用数字化软件管理工具 数字化软件管理工具可以帮助电机工厂实现工艺流程自动化、数据管理、生产计划排程等。例如,采用ERP(企业资源计划)系统可以协调管理生产过程…

SpringCloud Gateway

目录 一、gateway简介二、gateway快速入门2.1 引入依赖2.2 编写启动类2.3 编写基础配置和路由规则 三、断言工厂四、过滤器工厂4.1 路由过滤器的种类4.2 请求头过滤器4.3 默认过滤器 五、全局过滤器5.1 全局过滤器作用5.2 自定义全局过滤器5.3 过滤器执行顺序 六、跨域问题6.1 …

Sailfish OS 移动操作系统

Jolla 是一家曾经致力于开发智能手机和平板电脑的公司,但是这些产品并没有取得成功。后来 Jolla 将重心转向了基于 Linux 的 Sailfish OS(旗鱼),并将其应用于现有设备上。Sailfish OS 是由 Jolla 在 MeeGo 基础上开发的移动操作系…

鸿蒙绘制折线图基金走势图

鉴于鸿蒙下一代剥离aosp,对于小公司而言,要么用h5重构,要么等大厂完善工具、等华为出转换工具后跟进,用鸿蒙重新开发一套代码对于一般公司而言成本会大幅增加。但对于广大开发者来说,暂且不论未来鸿蒙发展如何&#xf…

实现跨平台高手必修的课程,玩转Flutter动态化的解决的一些精华部分总结

Flutter作为一种快速、可靠的跨平台移动应用开发框架,在动态化方面也有很多令人兴奋的特性。本文将总结Flutter动态化的一些精华部分,帮助开发者更好地利用这些功能。 正文: 在实现跨平台高手必修的课程中,Flutter动态化是一个不…

区块链媒体:Web3.015个方法解析-华媒舍

Web3.0是第三代互联网的发展阶段,相较于Web2.0,它具有更高的可信性、安全性和去中心化特点。在Web3.0时代,推广变得更为重要,因为吸引用户和提高品牌知名度对于在竞争激烈的市场中脱颖而出至关重要。本文将揭秘推广Web3.0的15个秘…

P2 Linux系统目录结构

前言 🎬 个人主页:ChenPi 🐻推荐专栏1: 《C_ChenPi的博客-CSDN博客》✨✨✨ 🔥 推荐专栏2: 《Linux C应用编程(概念类)_ChenPi的博客-CSDN博客》✨✨✨ 🛸推荐专…

如何跑通跨窗口渲染:multipleWindow3dScene

New 这是一个跨窗口渲染的示例,用 Three.js 和 localStorage 在同一源(同产品窗口)上跨窗口设置 3D 场景。而这也是本周推特和前端圈的一个热点,有不少人在争相模仿它的实现,如果你对跨窗口的渲染有兴趣,可…

linux 安装go环境

下载go SDK All releases - The Go Programming Language 此处建议选择与本机windows一样的版本,便于调试,若不涉及本地windows,则忽略此提示 上传到linux 解压go SDK 执行下述命令进行解压 tar -xvf go1.19.linux-amd64.tar.gz 此处选择…

tcp/ip协议 error=10022 Winsock.reg Winsock2.reg

tcp/ip协议 error10022 这2个注册表选项千万不能删除,否则上不了网。 按下windows键R键,输入regedit,打开注册表,在文件目录里找到如下两个文件夹,删除这两个文件夹。 路径:HKEY_LOCAL_MACHINE\System\C…

12.二维字符数组——输出basic和BASIC

文章目录 前言一、题目描述 二、题目分析 三、解题 程序运行代码 前言 本系列为二维字符数组编程题&#xff0c;点滴成长&#xff0c;一起逆袭。 一、题目描述 输出basic和BASIC 二、题目分析 法一&#xff1a; for(i0;i<1;i){ for(j0;j<6;j){ putchar(a[i][j]); pri…

RxJava

Single 使用 Flowable 比较重一般使用Single onSubscribe 产生订阅时调用 线程切换1 2 发送顺序事件.just just 源码 钩子方法,进行验证再处理 Single 对象 订阅,RxJavaPlugins.onSubscribe 钩子方法,产生订阅和过滤 Single 核心方法,抽象的,实现为SingleJust 订阅和执行成功回…

视图层与模板层

视图层 1 视图函数 一个视图函数&#xff0c;简称视图&#xff0c;是一个简单的Python 函数&#xff0c;它接受Web请求并且返回Web响应。响应可以是一张网页的HTML内容&#xff0c;一个重定向&#xff0c;一个404错误&#xff0c;一个XML文档&#xff0c;或者一张图片. . . 是…

93基于matlab的萤火虫算法优化支持向量机(GSA-SVM)分类模型

基于matlab的萤火虫算法优化支持向量机&#xff08;GSA-SVM&#xff09;分类模型&#xff0c;以分类精度为优化目标优化SVM算法的参数c和g&#xff0c;输出分类可视化结果。数据可更换自己的&#xff0c;程序已调通&#xff0c;可直接运行。 93萤火虫算法优化支持向量机 (xiaoh…

盘点25个Html游戏Game源码网页爱好者不容错过

盘点25个Html游戏Game源码网页爱好者不容错过 学习知识费力气&#xff0c;收集整理更不易。 知识付费甚欢喜&#xff0c;为咱码农谋福利。 下载链接&#xff1a;https://pan.baidu.com/s/1lSNLjWB4xMuLV8m_kDtczw?pwd6666 提取码&#xff1a;6666 项目名称 21点游戏 H5…

将多个字节对象组成的列表中的多个字节对象连接成为一个字节对象bytes.join()

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 将多个字节对象组成的列表 中的多个字节对象 连接成为一个字节对象 bytes.join() [太阳]选择题 请以下代码输出的结果是&#xff1f; byte_list [bK,be,by] print("【显示】byte_list&q…

智慧用电安全动态监控系统

智慧用电安全动态监控系统是一种先进的电力监控技术系统&#xff0c;它运用物联网、大数据、云计算等先进技术&#xff0c;对电力系统的运行状况进行实时监控和预警。 该系统依托电易云-智慧电力物联网&#xff0c;通过智能传感终端采集电气线路的实时运行数据&#xff0c;客户…