二十一.订单分析RFM模型

目录

1.数据读取

2.数据清洗

3.可视化分析

做图吧

4.RFM模型


本次数据条数为: 51101

import pandas as pd
import numpy as np

1.数据读取

#读取文件
df_data = pd.read_csv("../data/dataset.csv",encoding="gbk")
df_data#因为列标签都是英文,这里我们直接给它翻译一下.(英文-->中文)
df_data.columns = ["行编号","订单ID","订单日期","发货日期","发货模式","客户ID","客户姓名","客户类别","客户所在城市","客户所在州","客户所在国家","邮编","商店所属区域","商店所属州","产品ID","产品类别","产品子类别","产品名称","售价","销售量","折扣","利润","发货成本","订单优先级"
]df_data.head()

2.数据清洗

清洗:异常值,空值,重复数据. 

# df_data.info()#空值:
#找到空值,空值直接求和.
# df_data.isnull().sum()# 异常值:
#  订单日期在前  发货日期在后     发货日期-订单日期 < 0
#在网上买东西,还没买就发货了---异常啊...
df_data["发货日期"] = pd.to_datetime(df_data["发货日期"])
df_data["订单日期"] = pd.to_datetime(df_data["订单日期"])
df_data["订单与发货时间差"] = (df_data["发货日期"]-df_data["订单日期"]).dt.total_seconds()  
#--精确到秒.# 拿到有异常值的行的索引,然后进行删除
new_df_data = df_data.drop(index=df_data[df_data["订单与发货时间差"]<0].index)
new_df_data# 去重:
new_df_data["行编号"].unique().size
# drop_duplicates 删除重复数据集,只保留一项
new_df_data.drop_duplicates("行编号",inplace=True)
new_df_data# new_df_data.info()
# new_df_data[new_df_data["发货模式"].isnull()]
# 填充,使用出现次数最多的模式填充
new_df_data["发货模式"].fillna(value=new_df_data["发货模式"].mode()[0],inplace=True)#删除一列:
new_df_data.drop(columns=["邮编"],inplace=True)
new_df_data.info()

3.可视化分析

new_df_data.head()new_df_data["销售额"] = new_df_data["售价"] * new_df_data["销售量"]new_df_data["订单年份"] = new_df_data["订单日期"].dt.year
new_df_data["订单月份"] = new_df_data["订单日期"].dt.month
new_df_data["订单季度"] = new_df_data["订单日期"].dt.to_period("Q")#new_df_data.head(1)# 每年的销售额
sales_year = new_df_data.groupby("订单年份")["销售额"].sum()
sales_year# 计算每一年的增长率
sales_year_12 = (sales_year[2012]/sales_year[2011]) - 1
sales_year_13 = (sales_year[2013]/sales_year[2012]) - 1
sales_year_14 = (sales_year[2014]/sales_year[2013]) - 1
print(f"12年增长{sales_year_12}\n13年增长{sales_year_13}\n14年增长{sales_year_14}")#创建二维对象:
sales_rate = pd.DataFrame({"年销售额":sales_year,"订单增张":[0,sales_year_12,sales_year_13,sales_year_14]
}).reset_index()
sales_rate

做图吧

from pyecharts.charts import Bar, Line
from pyecharts import options as opts# 将年份转化为str类型
sales_rate['订单年份'] = sales_rate["订单年份"].astype("str")
bar_img = (Bar().add_xaxis(sales_rate["订单年份"].tolist()).add_yaxis("销售额",sales_rate["年销售额"].tolist(),yaxis_index=0).set_global_opts(yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(formatter="{value}$")),xaxis_opts=opts.AxisOpts(name="年份"),tooltip_opts=opts.TooltipOpts(is_show=True,trigger="axis")).extend_axis(yaxis=opts.AxisOpts(axislabel_opts=opts.LabelOpts(formatter="{value}%"),type_="value",min_=-2,max_=0.3))
)line_img = (Line().add_xaxis(sales_rate["订单年份"].tolist()).add_yaxis("增长率",sales_rate["订单增张"].tolist(),yaxis_index=1,label_opts=opts.LabelOpts(is_show=False))
)
bar_img.overlap(line_img)
bar_img.render_notebook()

4.RFM模型

R         越小越好.        交易的间隔.

F          越大越好.        交易的次数.

M         越大越好.         交易的金额.

new_df_datadf_data_14 = new_df_data[new_df_data["订单年份"]==2014]
df_data_14df_data_14["订单数"] = 1df_data_14.head()# pivot_table 透视表(只显示我指定的标签)
# 默认显示指定的索引列和所有数值列
rfm_df = df_data_14.pivot_table(index="客户ID",# 指定的列values=["订单日期","订单数","销售额"],# 指定列操作aggfunc = {"订单日期":"max","订单数":"sum","销售额":"sum"})
rfm_df.reset_index()#最后一次购买与上一次购买间隔的天数,
rfm_df["R"] = (rfm_df["订单日期"].max() - rfm_df["订单日期"]).dt.days
rfm_dfrfm_df = rfm_df.rename(columns={"订单数":"F","销售额":"M"})
rfm_df.reset_index()

RFM模型应用

def rfm_func(x):#先把0或1弄出来:level = x.apply(lambda x:"1" if x > 0 else "0")#拼接为字符串:label= level["R"] + level["F"] + level["M"]#定义字典:data = {"011":"重要价值客户","111":"重要挽回客户","001":"重要深耕客户","101":"重要挽留客户","010":"潜力客户","110":"一般维持客户","000":"新用户","100":"流失客户"}#返回字典的值(根据键,返回值)return data[label]# 关系映射
# rfm_df["用户标签"] = rfm_df.apply(lambda x: x-x.mean()).apply(rfm_func,axis=1)
rfm_df = rfm_df[["R","F","M"]]
rfm_df# rfm_df["用户标签"] = rfm_df.apply(lambda x: x-x.mean()).apply(rfm_func,axis=1) #这条出错...
rfm_df.reset_index()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/823490.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于分布式session的问题

分布式session只能存储在当前的tomcat中&#xff0c;所以比如下次负载均衡到其他服务器会出现问题 session同步&#xff0c;在一个session中存储后同步到其他的服务器&#xff08;耗时&#xff0c;影响性能&#xff09;信息不存在session中了&#xff0c;存cooking中&#xff0…

通讯录的实现(顺序表)

前言&#xff1a;上篇文章我们讲解的顺序表以及顺序表的具体实现过程&#xff0c;那么我们的顺序表在实际应用中又有什么作用呢&#xff1f;今天我们就基于顺序表来实现一下通讯录。 目录 一.准备工作 二.通讯录的实现 1.通讯录的初始化 2.插入联系人 3.删除联系人 4.…

LeetCode 454.四数相加II

LeetCode 454.四数相加II 1、题目 题目链接&#xff1a;454. 四数相加 II - 力扣&#xff08;LeetCode&#xff09; 给你四个整数数组 nums1、nums2、nums3 和 nums4 &#xff0c;数组长度都是 n &#xff0c;请你计算有多少个元组 (i, j, k, l) 能满足&#xff1a; 0 <…

手机副业赚钱秘籍:让你的手机变成赚钱利器

当今社会&#xff0c;智能手机已然成为我们生活不可或缺的一部分。随着技术的飞速进步&#xff0c;手机不再仅仅是通讯工具&#xff0c;而是化身为生活伴侣与工作助手。在这个信息爆炸的时代&#xff0c;我们时常会被一种焦虑感所困扰&#xff1a;如何能让手机超越消磨时光的定…

TinyEMU源码分析之访存处理

TinyEMU源码分析之访存处理 1 访存指令介绍2 指令译码3 地址转换3.1 VA与PA3.2 VA转PA 4 判断地址空间范围5 执行访存操作5.1 访问RAM内存5.2 访问非RAM&#xff08;设备&#xff09;内存 6 访存处理流程图 本文属于《 TinyEMU模拟器基础系列教程》之一&#xff0c;欢迎查看其…

【AI】什么是Ai Agent

什么是AI Agent&#xff1f; AI Agent是指人工智能代理&#xff08;Artificial Intelligence Agent&#xff09;是一种能够感知环境进行自主理解&#xff0c;进行决策和执行动作的智能体。AI Agent具备通过独立思考、调用工具逐步完成给定目标的能力。不同于大模型的区别在于&…

OpenHarmony实战开发-如何使用屏幕属性getDefaultDisplaySync、getCutoutInfo接口实现适配挖孔屏。

介绍 本示例介绍使用屏幕属性getDefaultDisplaySync、getCutoutInfo接口实现适配挖孔屏。该场景多用于沉浸式场景下。 效果图预览 使用说明 1.加载完成后顶部状态栏时间和电量显示位置规避了不可用区域。 实现思路 1.通过setWindowLayoutFullScreen、setWindowSystemBarEn…

代码随想录训练营

Day23代码随想录 669.修剪二叉搜索树 1.题目描述 给你二叉搜索树的根节点 root &#xff0c;同时给定最小边界low 和最大边界 high。通过修剪二叉搜索树&#xff0c;使得所有节点的值在[low, high]中。修剪树 不应该 改变保留在树中的元素的相对结构 (即&#xff0c;如果没有…

k8s 节点打污点

例如&#xff0c;给节点node-1打上一个名为special值为true&#xff0c;效果为NoSchedule的污点&#xff0c;命令如下&#xff1a; kubectl taint nodes node-1 specialtrue:NoSchedule 污点格式为“KeyValue:Effect”&#xff0c;Key和Value作为污点的标签&#xff0c;Value…

Hbase的简单学习一

一 Hbase的搭建与安装 1.1 安装 1.准备好文件&#xff0c;上传到Linux上 2.解压文件 tar zxvf hbase-2.2.7-bin.tar.gz -C ../ ../是解压到的路径 1.2 配置文件 1.配置环境变量 去etc/profile目录下 export HBASE_HOME/usr/local/soft/hbase-2.2.7 export PATH$PATH:$H…

-存储器-

1存储器简介 存储器是一种保存数据的硬件单元2存储器分类 2.1按照数据易失性 2.1.1易失性存储器【RAM-Random Access Memory】 2.1.1.1【SRAM-Static Random Access Memory】 用晶体管存储0、1。速度快&#xff0c;成本高&#xff0c;存储密度低。2.1.1.2【DRAM-Dynamic R…

.NET SignalR Redis实时Web应用

环境 Win10 VS2022 .NET8 Docker Redis 前言 什么是 SignalR&#xff1f; ASP.NET Core SignalR 是一个开放源代码库&#xff0c;可用于简化向应用添加实时 Web 功能。 实时 Web 功能使服务器端代码能够将内容推送到客户端。 适合 SignalR 的候选项&#xff1a; 需要从服…

GCDAsynSocket之TCP简析

GCDAsynSocket是一个开源的基于GCD的异步的socket库。它支持IPV4和IPV6地址&#xff0c;TLS/SSL协议。同时它支持iOS端和Mac端。本篇主要介绍一下GCDAsynSocket中的TCP用法和实现。 首先通过下面这个方法初始化一个GCDAsynSocket对象。 - (id)initWithDelegate:(id<GCDAsyn…

AI预测福彩3D第38弹【2024年4月17日预测--第8套算法开始计算第6次测试】

今天咱们继续测试第8套算法和模型&#xff0c;今天是第5次测试&#xff0c;目前的测试只是为了记录和验证&#xff0c;为后续的模型修改和参数调整做铺垫&#xff0c;所以暂时不建议大家盲目跟买~废话不多说了&#xff0c;直接上结果&#xff01; 2024年4月17日3D的七码预测结果…

Python中常见错误汇总(持续更新中)

Python中常见错误汇总&#xff08;持续更新中&#xff09; Problem1 ModuleNotFoundError: No module named sklearn.datasets.samples_generator’Problem2 ‘sklearn.externals’ (C:\anaconda\lib\site-packages\sklearn\externals_*init*_.pyProblem3 AttributeError: modu…

K8S node节点执行kubectl get pods报错

第一个问题是由第二个问题产生的&#xff0c;第二个问题也是最常见的 网上找的都是从master节点把文件复制过来&#xff0c;这样确实可以解决&#xff0c;但是麻烦&#xff0c;有一个node节点还好&#xff0c;如果有多个呢&#xff1f;每个都复制吗&#xff1f;下面是我从外网…

Jackson 2.x 系列【20】混合注解 Mixin Annotations

有道无术&#xff0c;术尚可求&#xff0c;有术无道&#xff0c;止于术。 本系列Jackson 版本 2.17.0 源码地址&#xff1a;https://gitee.com/pearl-organization/study-jaskson-demo 文章目录 1. 需求场景2. 混合注解2.1 创建混合类2.2 关联2.3 测试 3. JsonMixin 1. 需求场…

RabbitMQ-核心特性

已经不需要为RabbitMQ交换机的离去而感到伤心了&#xff0c;接下来登场的是RabbitMQ-核心特性!!! 文章目录 核心特性消息过期机制消息确认机制死信队列 核心特性 消息过期机制 官方文档&#xff1a;https://www.rabbitmq.com/ttl.html 可以给每条消息指定一个有效期&#xf…

Ubuntu 20.04.06 PCL C++学习记录(二十五)

[TOC]PCL中点云分割模块的学习 学习背景 参考书籍&#xff1a;《点云库PCL从入门到精通》以及官方代码PCL官方代码链接,&#xff0c;PCL版本为1.10.0&#xff0c;CMake版本为3.16&#xff0c;可用点云下载地址 学习内容 使用渐进形态滤波器分割识别地面回波&#xff0c;即执…

【一竞技CS2】VP战队官宣签下electroNic取代mir

1、近日VP战队官宣签下electroNic&#xff0c;以取代阵容中的mir。 electroNic自己也表示&#xff1a;“VP是一支顶级队伍。阵容核心曾赢得Major冠军&#xff0c;所有队员都处于巅峰状态并且时刻准备着去争夺冠军。我们有着一样的雄心壮志。 此外我还对和Jame很感兴趣&#xf…