DataFrame高效处理行列数据/倒三角型数据/处理阶梯型数据/根据列的值确定行的值

锲子

在使用pandas处理数据时,遇到了一种要按照留存天数来处理的数据,当列所对应的日期超过了最晚的“今天”那么数据就要置为0,举个例子:
在这里插入图片描述
在这个DataFrame中,需要将超过了今天2022-10-30的数据置为“-”,需要得到下面的一个倒三角形状的数据
在这里插入图片描述
在这个DataFrame中,day_0, day_1, …还可能是week_0, week_1, …,解决这类问题会有很多种方法,比较直观但是复杂度很高的方法就是for 循环遍历行,再遍历列,在遇到大于“今天”的数据时将其值修改为“-”

处理按天为单位的数据

待处理的数据:

import reimport pandas as pddate_unit = "day"
now_date = pd.Timestamp.now().floor("D")
print(now_date)
print(now_date - pd.to_datetime("2022-10-10"))raw_df = pd.DataFrame({"date_str": ["2022-10-27", "2022-10-28", "2022-10-29", "2022-10-30", "2022-10-31"],"day_0": [8, 8, 10, 6, 0],"day_1": [4, 6, 0, 0, 0],"day_2": [6, 7, 0, 0, 0],"day_3": [4, 3, 1, 0, 0],}
)print(raw_df)
# 当前df
#      date_str  day_0  day_1  day_2  day_3
# 0  2022-10-27      8      4      6      4
# 1  2022-10-28      8      6      7      3
# 2  2022-10-29     10      0      0      1
# 3  2022-10-30      6      0      0      0
# 4  2022-10-31      0      0      0      0# 目标df
#     date_str  day_0 day_1 day_2 day_3
# 0 2022-10-27      8     4     6     4
# 1 2022-10-28      8     6     7     3
# 2 2022-10-29     10     0     0     -
# 3 2022-10-30      6     0     -     -
# 4 2022-10-31      0     -     -     -

今日的日期以我处理时的2022-10-31为准,日期的单位是按天,获取今天的日期使用pd.Timestamp.now()比datetime.datetime.now()会更方便转换成其他的格式来使用,

将日期列date_str设置为index并转换为datetime对象方便比较

df.set_index("date_str", inplace=True)
# date_str变成了index放在最左侧
#             day_0  day_1  day_2  day_3
# date_str                              
# 2022-10-27      8      4      6      4
# 2022-10-28      8      6      7      3
# 2022-10-29     10      0      0      1
# 2022-10-30      6      0      0      0
# 2022-10-31      0      0      0      0# 修改index列的类型为datetime类型,之后要用于日期加减运算
df.index = df.index.map(pd.to_datetime)
print(df.index)
# DatetimeIndex(['2022-10-27', '2022-10-27', '2022-10-28', '2022-10-30',
#                '2022-10-31'],
#               dtype='datetime64[ns]', name='date_str', freq=None)

这里用了df.index.map和接下来的df.columns.map,map方法是对DataFrame的整个列的值做运算和各种操作的方法,类似Python内置的map方法,接收一个方法来同时处理多个数据

将列名称的数字提取出来转换为整数,方便日期加减运算,处理完之后要还原列名称,所以拷贝一个副本,完事之后将列名称修改回去

raw_columns = df.columns.copy()
df.columns = df.columns.map(lambda x: int(re.sub("\D", "", x)))  # \d表示匹配数字,大写\D表示匹配非数字,将非数字替换为“”
print(df.columns)  # Int64Index([0, 1, 2], dtype='int64')

使用pandas的整体操作行列的方法df.apply对二维的行和列一起做计算和比较,这里参数axis默认为0使用的是横向操作

df = df.apply(lambda col:# 这里为了方便debug断点调试可以单独写成一个方法就可以在方法里面打断点观察col.where(col.index + pd.Timedelta(col.name, unit=date_unit) <= now_date,"-")
)

其中col.index + pd.Timedelta(col.name, unit=date_unit),col.index就是date_str index中的日期(2022-10-27, 2022-10-28, …),col.name是列的名称现在已经被修改成整数(0, 1, 2…),就是用将df中index的日期加上往后延的留存天数:
在这里插入图片描述
其中col.where(...)的操作是对pd.DataFrame或者pd.DataFrame其中一列pd.Series对象的操作,可以对不满足条件的数据赋予想要的值,第一个参数是一个条件,满足这个条件的数据都会被保留,否则就会被赋予其他的值,这个值就是第二个参数,当然这个值也可以用方法做各种运算


当然也可以纵向操作,不过在这次的情况效率会比横向操作要差,大概率是因为多使用了row.index.map方法

df = df.apply(lambda row:row.where(row.name + row.index.map(lambda x: pd.Timedelta(x, unit=date_unit)) <= now_date,"-"),axis=1
)
df.columns = raw_columns
print(df)

最后把列名称还原,把index转换回列

# 将留存的天数的列还原名称,顺序没有发生改变,直接替换即可
df.columns = raw_columns
# 将index还原为列
df.reset_index(inplace=True)print(df)
#     date_str  day_0 day_1 day_2 day_3
# 0 2022-10-27      8     4     6     4
# 1 2022-10-28      8     6     7     3
# 2 2022-10-29     10     0     0     -
# 3 2022-10-30      6     0     -     -
# 4 2022-10-31      0     -     -     -

完整的代码

import reimport pandas as pddate_unit = "day"
now_date = pd.Timestamp.now().floor("D")
print(now_date)
print(now_date - pd.to_datetime("2022-10-10"))raw_df = pd.DataFrame({"date_str": ["2022-10-27", "2022-10-28", "2022-10-29", "2022-10-30", "2022-10-31"],"day_0": [8, 8, 10, 6, 0],"day_1": [4, 6, 0, 0, 0],"day_2": [6, 7, 0, 0, 0],"day_3": [4, 3, 1, 0, 0],}
)print(raw_df)
# 当前df
#      date_str  day_0  day_1  day_2  day_3
# 0  2022-10-27      8      4      6      4
# 1  2022-10-28      8      6      7      3
# 2  2022-10-29     10      0      0      1
# 3  2022-10-30      6      0      0      0
# 4  2022-10-31      0      0      0      0# 目标df
#     date_str  day_0 day_1 day_2 day_3
# 0 2022-10-27      8     4     6     4
# 1 2022-10-28      8     6     7     3
# 2 2022-10-29     10     0     0     -
# 3 2022-10-30      6     0     -     -
# 4 2022-10-31      0     -     -     -df = raw_df# 将日期列date_str设置为index并转换为datetime对象方便比较
df.set_index("date_str", inplace=True)
#             day_0  day_1  day_2  day_3
# date_str
# 2022-10-27      8      4      6      4
# 2022-10-28      8      6      7      3
# 2022-10-29     10      0      0      1
# 2022-10-30      6      0      0      0
# 2022-10-31      0      0      0      0
df.index = df.index.map(pd.to_datetime)
print(df.index)
# DatetimeIndex(['2022-10-27', '2022-10-27', '2022-10-28', '2022-10-30',
#                '2022-10-31'],
#               dtype='datetime64[ns]', name='date_str', freq=None)# 将列名称的数字提取出来,方便做运算,处理完之后要还原列名称,所以拷贝一个副本,完事之后将列名称修改回去
raw_columns = df.columns.copy()
df.columns = df.columns.map(lambda x: int(re.sub("\D", "", x)))  # \d表示匹配数字,大写\D表示匹配非数字,将非数字替换为“”
print(df.columns)  # Int64Index([0, 1, 2], dtype='int64')
print(df)
df = df.apply(lambda col:col.where(col.index + pd.Timedelta(col.name, unit=date_unit) <= now_date,"-"),# apply还有一个参数axis=0,默认横向操作,也就是一列一列地操作,axis=1时为竖向操作
)# 将留存的天数的列还原名称,顺序没有发生改变,直接替换即可
df.columns = raw_columns
# 将index还原为列
df.reset_index(inplace=True)print(df)
#     date_str  day_0 day_1 day_2 day_3
# 0 2022-10-27      8     4     6     4
# 1 2022-10-28      8     6     7     3
# 2 2022-10-29     10     0     0     -
# 3 2022-10-30      6     0     -     -
# 4 2022-10-31      0     -     -     -

标记位于“今天”的位置提示数据未满

在上面的DataFrame中同时想要标记位于“今天”的数据,以提示这一天的数据是不满一天的,也就是得到一条which_today的这样的数据:

which_todayday_4day_3day_2day_1day_0
df.set_index("date_str", inplace=True)
df.index = df.index.map(pd.to_datetime)which_is_today = df.index.map(lambda x:f"{date_unit}_{(now_date - x).days}"
)
print(which_is_today)
df["which_today"] = which_is_today
print(df)	
# date_str                                       
# 2022-10-27      8     4     6     4       day_4
# 2022-10-28      8     6     7     3       day_3
# 2022-10-29     10     0     0     -       day_2
# 2022-10-30      6     0     -     -       day_1
# 2022-10-31      0     -     -     -       day_0

now_date - x得到一个pd.TimeDelta的时间差对象,可以用.days从这个对象中获取时间差的天数

最后总结一下,这一篇介绍了在同时操作DataFrame行列时使用到的一些方法,主要有Series的map方法,DataFrame的apply方法,DataFrame和Series共有的where方法以及pandas中的一些时间相关操作方法,这些方法在特定业务逻辑的处理中都会有不错的帮助

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/469382.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Sanic服务启动失败,报错Cannot finalize with no routes defined

Sanic服务启动失败&#xff0c;记录解决方法 问题描述 Sanic服务启动失败&#xff0c;同样的代码和python版本在之前的win10系统上运行的好好的&#xff0c;换了台win11的机器就跑不起来了&#xff0c;不知道是系统原因还是因为换了执行pycharm等其他原因 在尝试启动时总是会…

【Pytorch神经网络理论篇】 12 卷积神经网络实现+卷积计算的图解

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…

【Pytorch神经网络实战案例】09 使用卷积提取图片的轮廓信息(手动模拟Sobel算子)

1 载入图片并显示 import matplotlib.pyplot as plt import matplotlib.image as mpimg import torch import torchvision.transforms as transforms import os os.environ["KMP_DUPLICATE_LIB_OK"]"TRUE" ### 1 载入图片并显示 myimg mpimg.imread(img.…

【Pytorch神经网络理论篇】 13 深层卷积神经网络介绍+池化操作+深层卷积神经网络实战

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…

【Pytorch神经网络实战案例】10 搭建深度卷积神经网络

识别黑白图中的服装图案(Fashion-MNIST)https://blog.csdn.net/qq_39237205/article/details/123379997基于上述代码修改模型的组成 1 修改myConNet模型 1.1.1 修改阐述 将模型中的两个全连接层&#xff0c;变为全局平均池化层。 1.1.2 修改结果 ### 1.5 定义模型类 class m…

【Pytorch神经网络理论篇】 14 过拟合问题的优化技巧(一):基本概念+正则化+数据增大

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…

MTK 8127平台使用busybox

一、什么是BusyBox &#xff1f; BusyBox 是标准 Linux 工具的一个单个可执行实现。BusyBox 包含了一些简单的工具&#xff0c;例如 cat 和 echo&#xff0c;还包含了一些更大、更复杂的工具&#xff0c;例如 grep、find、mount 以及 telnet。有些人将 BusyBox 称为 Linux 工具…

【Pytorch神经网络理论篇】 15 过拟合问题的优化技巧(二):Dropout()方法

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…

【Pytorch神经网络理论篇】 16 过拟合问题的优化技巧(三):批量归一化

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…

【Pytorch神经网络理论篇】 17 循环神经网络结构:概述+BP算法+BPTT算法

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…

【Pytorch神经网络理论篇】 18 循环神经网络结构:LSTM结构+双向RNN结构

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…

【Pytorch神经网络理论篇】 19 循环神经网络训练语言模型:语言模型概述+NLP多项式概述

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…

常见排序算法的C#实现

排序算法常见的有直接排序、冒泡排序、快速排序、基数排序、归并排序等&#xff0c;下面是实现的代码&#xff0c;仅供参考。 #region DirectSort/// <summary>/// 直接排序./// 第一次从R[0]~R[n-1]中选取最小值&#xff0c;与R[0]交换&#xff0c;/// 第二次从R[1]~R[n…

【Pytorch神经网络实战案例】11 循环神经网络结构训练语言模型并进行简单预测

1 语言模型步骤 简单概述&#xff1a;根据输入内容&#xff0c;继续输出后面的句子。 1.1 根据需求拆分任务 (1)先对模型输入一段文字&#xff0c;令模型输出之后的一个文字。(2)将模型预测出来的文字当成输入&#xff0c;再放到模型里&#xff0c;使模型预测出下一个文字&…

【Pytorch神经网络理论篇】 20 神经网络中的注意力机制

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…

【Pytorch神经网络实战案例】12 利用注意力机制的神经网络实现对FashionMNIST数据集图片的分类

1、掩码模式&#xff1a;是相对于变长的循环序列而言的&#xff0c;如果输入的样本序列长度不同&#xff0c;那么会先对其进行对齐处理&#xff08;对短序列补0&#xff0c;对长序列截断&#xff09;&#xff0c;再输入模型。这样&#xff0c;模型中的部分样本中就会有大量的零…

爬虫实战学习笔记_4 网络请求urllib3模块:发送GET/POST请求实例+上传文件+IP代理+json+二进制+超时

1 urllib3模块简介 urllib3是一个第三方的网络请求模块&#xff08;单独安装该模块&#xff09;&#xff0c;在功能上比Python自带的urllib强大。 1.1了解urllib3 urllib3库功能强大&#xff0c;条理清晰的用于HTTP客户端的python库&#xff0c;提供了很多Python标准库里所没…

C. Jon Snow and his Favourite Number DP + 注意数值大小

http://codeforces.com/contest/768/problem/C 这题的数值大小只有1000&#xff0c;那么可以联想到&#xff0c;用数值做数组的下标&#xff0c;就是类似于计数排序那样子。。 这样就可以枚举k次操作&#xff0c;然后for (int i 0; i < 1025; i)&#xff0c;也就是O(1000 *…

【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…