从Pandas到Polars :数据的ETL和查询

对于我们日常的数据清理、预处理和分析方面的大多数任务,Pandas已经绰绰有余。但是当数据量变得非常大时,它的性能开始下降。

本文将介绍如何将日常的数据ETL和查询过滤的Pandas转换成polars。

图片

Polars的优势
Polars是一个用于Rust和Python的DataFrame库。

Polars利用机器上所有可用的内核,而pandas使用单个CPU内核来执行操作。

Polars比pandas相对轻量级,没有依赖关系,这使得导入Polars的速度更快。导入Polars只需要70毫秒,而导入pandas需要520毫秒。

Polars进行查询优化减少了不必要的内存分配。它还能够以流方式部分或全部地处理查询。

Polars可以处理比机器可用RAM更大的数据集。

ETL
Extract, Transform, and Load (ETL)的过程是怎样的:

“提取、转换和加载(ETL)是将来自多个数据源的数据组合到称为数据仓库的过程。ETL使用一组业务规则来清理和组织原始数据,并为存储、数据分析和机器学习(ML)做好准备。可以通过数据分析解决特定的业务智能需求(例如预测业务决策的结果、生成报告、减少操作效率低下,等等)。(来源:AWS)

Polars和Pandas都支持从各种来源读取数据,包括CSV、Parquet和JSON。

df = pl.read_csv(‘data.csv’)
df = pl.read_parquet(‘data.parquet’)
df = pl.read_json(‘data.json’)
对于数据的读取方面和Pandas基本一致。

转换是ETL中最重要、最困难和最耗时的步骤。

polar支持Pandas函数的一个子集,所以我们可以使用熟悉的Pandas函数来执行数据转换。

df = df.select([‘A’, ‘C’])
df = df.rename({‘A’: ‘ID’, ‘C’: ‘Total’})
df = df.filter(pl.col(‘A’) > 2)
df = df.groupby(‘A’).agg({‘C’: ‘sum’})
这些Pandas函数都可以直接使用。

创建新列:

df = df.with_column(pl.col(‘Total’) / 2, ‘Half Total’)
处理空值:

df = df.fill_null(0)
df_filled = df.fill_null(‘backward’)
df = df.fillna(method=‘ffill’)
Dataframe 的合并

#pandas
df_join = pd.merge(df1, df2, on=‘A’)
#polars
df_join = df1.join(df2, on=‘A’)
连接两个DF

#pandas
df_union = pd.concat([df1, df2], ignore_index=True)
#polars
df_union = pl.vstack([df1, df2])
polar使用与Pandas相同的函数来将数据保存到CSV、JSON和Parquet文件中。

CSV

df.to_csv(file)

JSON

df.to_json(file)

Parquet

df.to_parquet(file)
最后,如果你还需要使用Pandas做一些特殊的操作,可以使用:

df.to_pandas()
这可以将polar的DF转换成pandas的DF。

最后我们整理一个简单的表格:

图片

数据的查询过滤
我们的日常工作中,数据的查询是最重要,也是用的最多的,所以在这里我们再整理下查询过滤的操作。

首先创建一个要处理的DataFrame。

pandas

import pandas as pd

read csv

df_pd = pd.read_csv(“datasets/sales_data_with_stores.csv”)

display the first 5 rows

df_pd.head()
图片

polars

import polars as pl

read_csv

df_pl = pl.read_csv(“datasets/sales_data_with_stores.csv”)

display the first 5 rows

df_pl.head()
图片

polars首先显示了列的数据类型和输出的形状,这对我们来说非常好。下面我们进行一些查询,我们这里只显示一个输出,因为结果都是一样的:

1、按数值筛选

pandas

df_pd[df_pd[“cost”] > 750]
df_pd.query(‘cost > 750’)

polars

df_pl.filter(pl.col(“cost”) > 750)
图片

2、多个条件查询

pandas和polar都支持根据多个条件进行过滤。我们可以用“and”和“or”逻辑组合条件。

pandas

df_pd[(df_pd[“cost”] > 750) & (df_pd[“store”] == “Violet”)]

polars

df_pl.filter((pl.col(“cost”) > 750) & (pl.col(“store”) == “Violet”))
图片

3、isin

pandas的isin方法可用于将行值与值列表进行比较。当条件包含多个值时,它非常有用。这个方法的polar版本是" is_in "。

pandas

df_pd[df_pd[“product_group”].isin([“PG1”, “PG2”, “PG5”])]

polars

df_pl.filter(pl.col(“product_group”).is_in([“PG1”, “PG2”, “PG5”]))
图片

4、选择列的子集

为了选择列的子集,我们可以将列名传递给pandas和polar,如下所示:

cols = [“product_code”, “cost”, “price”]

pandas (both of the following do the job)

df_pd[cols]
df_pd.loc[:, cols]

polars

df_pl.select(pl.col(cols))
图片

5、选择行子集

pandas中可以使用loc或iloc方法选择行。在polar则更简单。

pandas

df_pd.iloc[10:20]

polars

df_pl[10:20]
选择相同的行,但只选择前三列:

pandas

df_pd.iloc[10:20, :3]

polars

df_pl[10:20, :3]
如果要按名称选择列:

pandas

df_pd.loc[10:20, [“store”, “product_group”, “price”]]

polars

df_pl[10:20, [“store”, “product_group”, “price”]]
按数据类型选择列:

我们还可以选择具有特定数据类型的列。

pandas

df_pd.select_dtypes(include=“int64”)

polars

df_pl.select(pl.col(pl.Int64))
图片

总结
可以看到polar与pandas非常相似,所以如果在处理大数据集的时候,我们可以尝试使用polar,因为它在处理大型数据集时的效率要比pandas高,我们这里只介绍了一些简单的操作,如果你想了解更多,请看polar的官方文档:

https://pola-rs.github.io/polars-book/user-guide/coming_from_pandas.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/735985.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

简单接入电商API接口|轻松实现实时采集淘宝、抖音、快手、1688商品,挖掘潜力款

今天给大家带来一款非常实用的电商API接口,这款数据采集接口支持淘宝采集、抖音采集、快手采集、1688采集以及潜力款分析,功能强大,助您在电商领域更上一层楼。 首先,我们来了解一下淘宝采集功能。作为国内最大的电商平台&#xf…

基于Java+springboot+VUE+redis实现的前后端分类版网上商城项目

基于Java springbootVUEredis实现的前后端分类版网上商城项目 博主介绍:多年java开发经验,专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 央顺技术团队 Java毕设项目精品实战案例《1000套》 欢迎点赞 收藏 ⭐留言…

Contact-GraspNet: Efficient 6-DoF Grasp Generationin Cluttered Scenes

总结 提出一种端到端的网络,解决复杂场景中对未知物体的抓取。将六自由度抓取投影到观察到的点云中的接触点,表示只有4-DoF。 摘要 我们提出了一个端到端网络,可以直接从场景的深度记 录中有效地生成六自由度平行颚抓取的分布。 我们的新…

_note_01

1.什么是跨平台 跨平台是指一个应用程序或一个编程语言,可以在不同的操作系统或平台上运行,而不需要对代码进行修改或重新编译。 跨平台应用程序或编程语言的设计和实现可以使开发者减少对特定平台的依赖,从而降低维护和开发的成本。同时&am…

06 数据结构之树

引言&#xff1a; 数的代码实现&#xff0c; 先序遍历、中序、后序、层次遍历 /* binary_tree.h */ #ifndef _BINARY_TREE_H #define _BINARY_TREE_H#include <stdio.h> #include <stdlib.h> #include <string.h>#define DEBUG(msg) \printf("--%s--, %…

车载诊断协议DoIP系列 —— 诊断报文和诊断报文应答传输层安全(TLS)

车载诊断协议DoIP系列 —— 诊断报文和诊断报文应答&传输层安全(TLS) 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师(Wechat:gongkenan2013)。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 本就是小人物,输了就是输了,不要在意别人怎…

NLP:文本相似度计算

前面我们已经实现了把长段的句子&#xff0c;利用HanLP拆分成足够精炼的分词&#xff0c;后面我们要实现“联想”功能&#xff0c;我这里初步只能想到通过文本相似度计算来实现。下面介绍一下文本相似度计算 &#xff08;当然HanLP也有文本相似度计算的方法&#xff0c;这里我…

【JAVA】CSS3伸缩盒案例、响应式布局、BFC

1.CSS3伸缩盒案例 效果&#xff1a;用伸缩盒模型 <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title>&…

Windows电脑安装Linux(Ubuntu 22.04)系统(图文并茂)

Windows电脑安装Ubuntu 22.04系统&#xff0c;其它版本的Ubuntu安装方法相同 Ubuntu 16.04、Ubuntu 18.04安装方法相同&#xff0c;制作U盘启动项的镜像文件下载你需要的版本即可&#xff01; Ubuntu的中文官网网址&#xff1a;https://cn.ubuntu.com/&#xff0c;聪明的你一定…

redisson解决redis服务器的主从一致性问题

redisson解决redis的主节点和从节点一致性的问题。从而解决锁被错误获取的情况。 实际开发中我们会搭建多台redis服务器&#xff0c;但这些服务器分主次&#xff0c;主服务器负责处理写的操作&#xff08;增删改&#xff09;&#xff0c;从服务器负责处理读的操作&#xff0c;…

TCP粘包和分包

TCP的粘包和分包是网络通信中常见的问题&#xff0c;特别是在使用TCP协议进行数据传输时。这两个问题都涉及到TCP在传输数据时的工作机制。 粘包&#xff08;TCP数据合并&#xff09; 粘包指的是发送方发送的多个小数据包在传输过程中被TCP协议合并成一个大的数据包接收&…

英飞凌电源管理PMIC的安全应用

摘要 本篇文档主要用来介绍英飞凌电源管理芯片TLF35584的使用&#xff0c;基于电动助力转向应用来介绍。包含一些安全机制的执行。 TLF35584介绍 TLF35584是英飞凌推出的针对车辆安全应用的电源管理芯片&#xff0c;符合ASIL D安全等级要求&#xff0c;具有高效多电源输出通道&…

AI认知与科普(通识)

一、宏观分析 1.全球人工智能产业概况&#xff1a; 近年来&#xff0c;全球人工智能产业呈现出快速增长的趋势。据相关数据显示&#xff0c;全球人工智能市场规模预计将在2025年达到约600亿美元&#xff0c;年复合增长率达到约25%。其中&#xff0c;美国、中国、欧洲、日本等地…

计算机网络的相关概念

1.IP地址 IP&#xff08;Internet Protocol&#xff09;地址是分配给计算机或设备的唯一标识符&#xff0c;用于在网络上进行通信。IPv4 地址通常由四个十进制数字组成&#xff0c;如 192.168.1.1&#xff0c;而 IPv6 地址则更长。 ipv4是32位地址&#xff0c;ipv6是128位地址。…

freertos3

CMSIS的作用&#xff1a; 1.提供了接口标准&#xff0c;便于移植和管理。 2.提供了很多第三方固件&#xff0c;便于业务开发。 3.因为统一了接口&#xff0c;使底层硬件和上层应用耦合降低&#xff0c;更换硬件平台时只需开发人员改变底层硬件的驱动即可&#xff0c;上层业务应…

【《高性能 MySQL》笔记】性能优化

学习知识最快最好的方式就是问对问题。 本文将通过“问正确的问题”的方式循序渐进地深入总结性能优化相关知识。 性能优化基础 Q1:什么是“性能”? 即响应时间(RT,Response Time),完成某个任务所需要的时间度量。 Q2:什么是“性能优化”? 性能优化为在一定工作负…

Jmeter+Ant+Git/SVN+Jenkins实现持续集成接口测试,一文精通(一)

前言 Jmeter&#xff0c;Postman一些基本大家相比都懂。那么真实在项目中去使用&#xff0c;又是如何使用的呢&#xff1f;本文将一文详解jmeter接口测试 一、接口测试分类 二、目前接口架构设计 三、市面上的接口测试工具 四、Jmeter简介&#xff0c;安装&#xff0c;环境…

opencv解析系列 - 基于DOM提取大面积植被(如森林)

Note&#xff1a;简单提取&#xff0c;不考虑后处理&#xff08;填充空洞、平滑边界等&#xff09; #include <iostream> #include "opencv2/imgproc.hpp" #include "opencv2/highgui.hpp" #include <opencv2/opencv.hpp> using namespace cv…

深入理解React中的useReducer:管理复杂状态逻辑的利器

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

【机器学习】神经网络 | 神经网络基础知识全梳理,神经网络组成,优化及其常见的神经网络

文章目录 1 神经网络组成2 神经网络的优化2.1 反向传播算法 BP算法2.2 梯度下降算法2.3 训练中可能会遇到的问题2.3.1 如何避免过拟合&#xff1f;2.3.2 如何避免到局部最小&#xff1f;2.3.3如何避免梯度消失和梯度爆炸 &#xff1f; 3 常见的一些神经网络3.1 感知机&#xff…