【Python数据分析】Pandas_数据重采样

数据重采样是将时间序列从一个频率转换至另一个频率的过程,它主要有两种实现方式,分别是降采样和升采样,降采样指将高频率的数据转换为低频率,升采样则与其恰好相反,说明如下:

方法说明
降采样将高频率(间隔短)数据转换为低频率(间隔长)。
升采样将低频率数据转换为高频率。

Pandas 提供了 resample() 函数来实现数据的重采样。

降采样

通过 resample() 函数完成数据的降采样,比如按天计数的频率转换为按月计数。

import pandas as pd
import numpy as np
rng = pd.date_range('1/1/2021',periods=100,freq='D')
ts = pd.Series(np.random.randn(len(rng)),index=rng)
#降采样后并聚合
print(ts.resample('M').mean())

运行结果:

2021-01-31   -0.001888
2021-02-28   -0.333447
2021-03-31   -0.221355
2021-04-30   -0.507379
Freq: ME, dtype: float64

如果您只想看到月份,那么您可以设置kind=period如下所示:

ts.resample('M',kind='period').mean()

升采样

升采样是将低频率(时间间隔)转换为高频率,示例如下:

import pandas as pd
import numpy as np
#生成一份时间序列数据
rng = pd.date_range('1/1/2021', periods=20, freq='3D')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
print(ts.head())
print("\n")
#使用asfreq()在原数据基础上实现频率转换
print(ts.resample('D').asfreq().head())

运行结果:

2021-01-01   -0.378926
2021-01-04   -1.366412
2021-01-07    1.789886
2021-01-10    1.765642
2021-01-13   -2.071414
Freq: 3D, dtype: float642021-01-01   -0.378926
2021-01-02         NaN
2021-01-03         NaN
2021-01-04   -1.366412
2021-01-05         NaN
Freq: D, dtype: float64

频率转换

asfreq() 方法不仅能够实现频率转换,还可以保留原频率对应的数值,同时它也可以单独使用,示例如下:

import pandas as pd
index = pd.date_range('1/1/2021', periods=6, freq='T')
series = pd.Series([0.0, None, 2.0, 3.0,4.0,5.0], index=index)
df = pd.DataFrame({'s':series})
print(df.asfreq("45s"))

运行结果:

                       s
2021-01-01 00:00:00  0.0
2021-01-01 00:00:45  NaN
2021-01-01 00:01:30  NaN
2021-01-01 00:02:15  NaN
2021-01-01 00:03:00  3.0
2021-01-01 00:03:45  NaN
2021-01-01 00:04:30  NaN

插值处理

从上述示例不难看出,升采样的结果会产生缺失值,那么就需要对缺失值进行处理,一般有以下几种处理方式:

方法说明
pad/ffill用前一个非缺失值去填充缺失值。
backfill/bfill用后一个非缺失值去填充缺失值。
interpolater(‘linear’)线性插值方法。
fillna(value)指定一个值去替换缺失值。

下面使用插值方法处理 NaN 值,示例如下:

import pandas as pd
import numpy as np
#创建时间序列数据
rng = pd.date_range('1/1/2021', periods=20, freq='3D')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
print(ts.resample('D').asfreq().head())
print("\n")
#使用ffill处理缺失值
print(ts.resample('D').asfreq().ffill().head())

运行结果:

2021-01-01   -0.136353
2021-01-02         NaN
2021-01-03         NaN
2021-01-04   -0.573291
2021-01-05         NaN
Freq: D, dtype: float642021-01-01   -0.136353
2021-01-02   -0.136353
2021-01-03   -0.136353
2021-01-04   -0.573291
2021-01-05   -0.573291
Freq: D, dtype: float64

参考:C语言中文网

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/37502.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL之如何定位慢查询

1、如何定位慢查询 1.1、使用开源工具 调试工具:Arthas 运维工具:Promethuss、Skywalking 1.2、MySQL自带慢日志 慢查询日志记录了所有执行时间超过指定参数(long_query_time,单位:秒,默认10秒&#x…

小白上手AIGC-基于PAI-DSW部署Stable Diffusion文生图Lora模型

小白上手AIGC-基于PAI-DSW部署Stable Diffusion文生图Lora模型 前言资源准备开启体验服务创建工作空间 部署服务创建DSW实例安装Diffusers启动WebUI 写在最后 前言 在上一篇博文小白上手AIGC-基于FC部署stable-diffusion 中,说到基于函数计算应用模板部署AIGC文生图…

python基础语法 004-1流程控制- 条件控制

1 条件控制 1.1 表达 条件表达式冒号缩进 1.1.1 单个条件:满足表达式 """ ############if的表示 if 条件表达式:(缩进)条件满足以后要运行的代码例子: #遇到冒号要缩进 #缩进:1个缩进用4个空格,整个篇幅缩进需要统一 #4个…

C++版本号处理1 - 判断一个字符串是否为版本号

1. 关键词2. verutil.h3. verutil.cpp4. 测试代码5. 运行结果6. 源码地址 1. 关键词 关键词: C 版本号处理 版本号判断 跨平台 实现原理: 使用正则表达式进行版本号匹配。 应用场景: 判定一个字符串是否是指定的版本号格式 2. veruti…

Python 使用函数输出一个整数的逆序数

在Python中,你可以定义一个函数来输出一个整数的逆序数。这里有一个简单的实现方法: def reverse_integer(x):# 检查输入是否为整数if not isinstance(x, int):raise ValueError("Input must be an integer")# 将整数转换为字符串&#xff0c…

高效管理Python依赖:将pip源切换至Amazon S3

Python的包管理工具pip在安装和更新包时,通常使用PyPI(Python Package Index)作为默认源。然而,在某些情况下,直接使用默认源可能会遇到速度慢或访问不稳定的问题。为了解决这些问题,用户可以将pip的源切换…

揭开统计分析的秘密:独立样本和配对样本T检验实战案例

一、独立样本T检验 1.收集20名学生的自信心值 见下表,试问该指标是否与性别有关?(非参数检验或参数检验) 数据值 性别 1,1,1,1,2,2,1,1&#…

国产操作系统上netstat命令详解 _ 统信 _ 麒麟 _ 中科方德

原文链接:国产操作系统上netstat命令详解 | 统信 | 麒麟 | 中科方德 Hello,大家好啊!今天给大家带来一篇在国产操作系统上使用netstat命令的详解文章。netstat是网络统计(network statistics)的缩写,它是一…

【股指期权投教】一手股指期权大概多少钱?

一手股指期权的权利金大概在几千人民币左右,如果是作为期权卖方还需要另外缴纳保证金的。国内的股指期权有三种,沪深300、上证50、中证1000股指期权,每点合约人民币100 元。 期权合约的价值计算可以通过此公式得出:权利金的支付或…

软件工程实验

实验环境和需求 用户可以对相片进行按类别管理,用户可以设定不同的类别,然后上传照片到相应的类别中,并能进行照片的删除,注释 运行 运行并访问 localhost 8090,图片在数据库中的信息是D:/upgrade 后面的内容 se…

windographer数据操作教程

目录 通道设置将4个windographer文件拼到一起映射关系通道设置 先把风速列选中,将Type改为 wind speed 无需额外操作,确认一下即可

QT4-QT5(6)-const char* QString 乱码转换

我简单粗暴的给出个结论: QString GBK编码正常,可以转UTF-8编码,但会有少量乱码。 const char* 编码就不要转编码,转哪个都是乱码。 UTF-8.cpp 下 1.QString GBK->UTF-8 2.const char * GBK->UTF-8 const char *…

数据可视化在智慧园区中的重要作用

在现代智慧园区的建设和管理中,数据的作用越来越重要。智慧园区利用物联网、云计算、大数据等技术,实现了园区各类信息的实时采集和处理。数据可视化作为数据处理和展示的重要工具,为智慧园区的各个方面提供了强有力的支持。 首先&#xff0c…

mybatis的高级映射

mybatis的高级映射(重点) 表与表之间的关系: 一对一关系: 栗子:一个人对应一个身份证号 一对多关系: 栗子:一个用户可以有多个订单 1. 分析需求&…

[深度学习] 自编码器Autoencoder

自编码器(Autoencoder)是一种无监督学习算法,主要用于数据的降维、特征提取和数据重建。自编码器由两个主要部分组成:编码器(Encoder)和解码器(Decoder)。其基本思想是将输入数据映射…

文心一言 VS 讯飞星火 VS chatgpt (290)-- 算法导论21.3 3题

三、给出一个包含 m 个 MAKE-SET 、UNION 和 FINDSET 操作的序列(其中有 n 个是 MAKE-SET 操作),当仅使用按秩合并时,需要 Ω(mlgn) 的时间。如果要写代码,请用go语言。 文心一言: 在并查集(Union-Find)数…

JAVA学习-练习试用Java实现“字符串相乘”

问题: 给定两个以字符串形式表示的非负整数 num1 和 num2,返回 num1 和 num2 的乘积,它们的乘积也表示为字符串形式。 示例 1: 输入: num1 "2", num2 "3" 输出: "6" 示例 2: 输入: num1 "123"…

CesiumJS【Basic】- #026 加载kml/kmz文件

文章目录 加载kml/kmz文件1 目标2 代码2.1 main.ts3 资源加载kml/kmz文件 1 目标 加载kml/kmz文件(kmz是kml的压缩格式) 2 代码 加载CesiumJS【Basic】- #025 生成kml/kmz文件导出生成的entities.kml/kmz文件,并修改点、线、面元素的颜色 2.1 main.ts import * as Ces…

MySQL的`count(expr)`函数选择指南

MySQL的count(expr)函数选择指南 1. 背景知识 文章基于MySQL 8.0.30,使用InnoDB和MyISAM引擎。count(expr): MySQL聚合函数,用于统计列值或表行数。统计列值: 只计非NULL值。统计表行数: 不区分NULL与否。 2. 存储引擎差异 MyISAM: 表定义、数据、索…

2023年全国职业院校技能大赛(高职组)“云计算应用”赛项赛卷9(容器云)

#需要资源(软件包及镜像)或有问题的,可私聊博主!!! #需要资源(软件包及镜像)或有问题的,可私聊博主!!! #需要资源(软件包…