数分基础(03-3)客户特征分析--Tableau

文章目录

  • 客户特征分析 - Tableau
    • 1. 说明
    • 2. 思路与步骤
    • 3. 数据准备和导入
      • 3.1 用EXCEL初步检查和处理数据
        • 3.1.1 打开
        • 3.1.2 初步检查
          • (1)缺失值
            • 检查
            • 缺失值处理
          • (2)格式化日期字段
          • (3)其他字段数据类型
        • (4)冗余数据检查
        • (5)其他
      • 3.2 导入Tableau
    • 4. 数据探索和准备分析
        • 例如 创建基本的客户视图
        • 例如,在地图上显示销售额
    • 5. 客户特征分析
      • 5.1 新工作表
      • 5.2 基本视图
        • 初步的散点图
      • 5.3 启动聚类分析
      • 5.4 设置聚类参数
    • 6. 结束

客户特征分析 - Tableau

1. 说明

数分基础(03-1)客户特征分析,是用Python作为分析工具

对于非技术用户来说,Tableau 直观易上手,可以快速创建图表、即时交互,这里用 Tableau Desktop

这里主要是演示一下如何用Tableau来做分析这件事情的主要过程

关于Tableau的详细操作以及为什么等等,暂时不做解释,需要的可以自行查阅。

在这里插入图片描述

同时特别提醒
涉及操作,篇幅会长,但有时候很长的一段,操作很简单
非技术同学不要心理上预先觉得麻烦

其实很快的,特别是慢慢熟练了,会发现用可视化工具可以迅速获得对数据集的认识,还是很方便的

千万不要觉得烦,就放弃这个快速工具

2. 思路与步骤

数据准备
初始视图
关键指标
分析可视

3. 数据准备和导入

可以在EXCEL中进行初步检查和处理,例如缺失值、字段类型、异常值、冗余数据等,然后再导入Tableau。

涉及操作,篇幅会长,但有时候很长的一段,操作很简单
非技术同学不要心理上预先觉得麻烦
其实很快的

3.1 用EXCEL初步检查和处理数据

3.1.1 打开

双击EXCEL文件
数据集Global_Superstore同前不变,可在此直接下载 数分基础(01)示例数据集
在这里插入图片描述
在查看中等规模数据时候,EXCEL几个快捷键很好用,见(04)。

数据表任意点选单元格,ctrl + end,移动到工作表中最后一个有数据的单元格,显示“X51291”

数据集包含了51290条记录和24个字段,这和Python首先加载数据集,看看大体数量,字段数目情况一样的。

在这里插入图片描述

3.1.2 初步检查
(1)缺失值
检查

ctrl + home 回数据区左上角
ctrl + 方向键右→ ,快速移动到数据第一行最右列

添加一个新列,用于统计每行的缺失值数量
在新列的第一个单元格中输入公式 =COUNTBLANK(A2:X2)
鼠标移动到写公式的单元格右下角,单元格右下角出现实心小方块,光标变成实心十字架时候双击,将公式应用到所有行
在这里插入图片描述
同时在最后一行 也看下每列的缺失值情况
在这里插入图片描述
这样可以发现 缺失值集中在邮编这一列

除了添加辅助列,也可以 Ctrl + shift + L,筛选模式,逐列点击列顶部的筛选箭头,下拉菜单,显示该列中所有可能的值,在下拉菜单的底部,如果有“(空白)”的选项,代表该列存在空白单元格,逐列识别 在这里插入图片描述

缺失值处理

如果缺失值不影响分析,则可以忽略,如果需要填补,则是另外一件事情了,本文暂略。

(2)格式化日期字段

对于有日期字段的数据表,需要确保其类型正确
正确的日期格式,可以是的后续在Tableau中,处理时间序列、和日期相关的计算避免混乱

"Order Date"和"Ship Date"列的数据是以日-月-年(DD-MM-YYYY)的格式显示的,这种情况设置单元格格式为日期可能不起作用,是因为Excel将这些日期读取为文本在这里插入图片描述使用Excel公式将文本日期转换为日期格式
在“Order Date”和“Ship Date”列旁边插入新的空列,用于存放转换后的日期

=DATE(VALUE(RIGHT(D2,4)), VALUE(MID(D2,4,2)), VALUE(LEFT(D2,2)))

D2是Order Date第一行日期所在的单元格,根据实际数据修改单元格引用
自动填充公式
把所有的文本日期转换为Excel可以识别的日期格式
将新列设置为日期格式,确认新生成的日期已经可以被Excel识别
如果新日期列正确无误,将新列复制并粘贴为值 替换旧列,删除新列,这里粘贴为值非常重要
在这里插入图片描述
对每一个日期格式的列,如法炮制,这里,只涉及这两个字段:订单日期(Order Date)和发货日期(Ship Date)

  1. 设置其为日期格式,但是发现不起作用
  2. 新列获取旧列字符串,公式处理
  3. 新列设为日期格式
  4. 新列复制并粘贴为值 替换旧列,删除新列
(3)其他字段数据类型

数值字段如销售额(Sales)、利润(Profit)、折扣(Discount)和 运费(Shipping Cost)等,在单元格式中设置为数值类型,且分别设置小数位数,规整一下

其余列改设置为文本的设置为文本在这里插入图片描述

(4)冗余数据检查

选择整个数据范围(包括列标题),点击“数据”菜单。
选择“删除重复项”选项。
在这里插入图片描述

在弹出的对话框中,勾选可能导致记录重复的字段(如“订单ID”、“客户ID”等),然后点击“确定”
在这里插入图片描述
Excel将删除完全重复的行并保留一个唯一的记录。

这个数据集,没有重复的行记录
在这里插入图片描述

(5)其他

异常值检测可以暂时不做
清理不必要的空白行或无关字段
检查字段名称,简洁,避免使用特殊字符
表头保持在第一行,没有多余的信息(例如注释)

“Row ID”、“Order ID”、“Order Date”等带有空格的字段名,不会对Tableau的基本功能造成问题,然而未来如果从Tableau导出并在其他数据处理工具(如SQL、Python等)中使用,空格可能会导致解析错误,可能需要额外处理

为提高兼容性和数据处理效率,建议在数据导入前规范列名:
方法一:使用下划线,例如“Row_ID”、“Order_ID”
方法二:驼峰命名,例如“RowID”、“OrderID”

基本处理并且格式规范,CTRL + S 保存初步处理好的数据

3.2 导入Tableau

打开Tableau Desktop。
选择“连接到数据”,选择“Excel”作为数据源。
浏览到选择EXCEL文件并加载。
检查Tableau中的数据预览,正确识别所有列和数据类型(数值、日期、文本等)
在这里插入图片描述
没问题后,左下角,转到工作表1
在这里插入图片描述

4. 数据探索和准备分析

这部分不详细了,需要的可以去找Tableau相关资料,粗略感受和体验一下交互性,以及通过可视化工具更好地理解数据集。

使用“拖放”将不同的字段放到行或列上,尝试不同的组合以查看数据分布和关键趋势。
尝试基本的图表类型,如条形图、线图、散点图等

例如 创建基本的客户视图

将 CustomerID 拖到 行(Rows)列出所有客户
将 Segment 拖到 行,继续将 Segment 拖到 颜色(Color)
按客户类别(如 Consumer、Corporate、Home Office)对客户进行分类
在这里插入图片描述
将 Sales 拖到 列(Columns),显示每个客户的销售额
在这里插入图片描述

例如,在地图上显示销售额

State、City 或 Country 字段被 Tableau 识别为地理角色
右键点击字段(如 State)并选择 “地理角色” > “州/省”,如果是 City 则选择 “城市”,如果是 Country 则选择 “国家/地区”。
如果 Tableau 没有自动识别,可以手动设置地理角色。

将 State(或其他地理字段,如 City、Country)拖动到“列”或“行”。
将 Sales 字段拖动到 大小(Size)框,以根据销售额大小调整地图上的圆点大小。

如果没有出现地图,可以点下图右上角“智能推荐”
在这里插入图片描述
点击后,并选择地图,字段自动调整为下图的布局
在这里插入图片描述
将 Sales 字段拖动到 大小(Size)框,以根据销售额大小调整地图上的圆点大小。
在这里插入图片描述
也可以点击大小图标调整图表中的圆点大小
在这里插入图片描述
将 Sales 字段拖动到 标签(Label)框,以在地图上显示每个区域的具体销售额。
在这里插入图片描述

5. 客户特征分析

来到正事儿,分析识别不同客户群体的特征

5.1 新工作表

在Tableau中新建工作表
在这里插入图片描述

5.2 基本视图

关注着两类字段:
用于聚类的度量字段,例如 Sales Profit Discount
维度字段,例如 CustomerID

初步的散点图

将 CustomerID 拖入 行(Rows)
将 Sales 和 Profit 拖入 列(Columns),创建一个初步的散点图,显示客户的销售额和利润关系。
在这里插入图片描述
可以添加更多度量字段,如 Discount 拖入颜色(Color)以显示折扣率对客户的影响
在这里插入图片描述
这里请注意,鼠标移到某些点上,会显示Discount 为4.57 9.8 ……在这里插入图片描述
这是因为Tableau 默认情况下,数值字段设置为求和(SUM),这会导致折扣显示为累加值(该客户所有购买次数,每次的折扣叠加)

点击这个位置 Discount 字段的下拉小三角,在下拉菜单中选择 “度量”,然后选择 “平均值 (AVG)”
在这里插入图片描述

这样,可以看到平均折扣值大的颜色深,且位于横轴销售额的左边低值区域
在这里插入图片描述

5.3 启动聚类分析

点击左上角“数据”右侧的 “分析” tab
在这里插入图片描述

找到 “聚类”(Cluster) 选项。

将 “聚类” 选项拖拽到你的散点图上,聚类设置窗口会自动弹出,显示当前选定的度量和维度。
在这里插入图片描述

可以在窗口中选对分析有意义的指标
不需要的字段,拖到空白处,不要,或者 右键 “移除”

5.4 设置聚类参数

调整聚类数量,根据业务需求,在框中调整聚类数量。Tableau 通常会提供一个建议的默认值 ,见右上角

可以进行修改,查看不同的分群效果

在这里插入图片描述

在这里插入图片描述

如果不小心关了,可以在这里打开对话框
在这里插入图片描述

Tableau 是使用 K-means 算法进行聚类分析的(前面某篇提到过聚类的方法有很多种)

在右侧点选感兴趣的Cluster,直观地区分不同的客户群体
在这里插入图片描述
结合业务知识,验证聚类结果的合理性。如果某些群体特征不明显,考虑调整度量的选择或数量

6. 结束

这里主要是演示一下如何用Tableau可视化聚类的大体情况,过程看着复杂,在前面检查数据阶段需要多点儿时间

实际上,从导入到Tableau,拖拖拽拽,是非常快的,可以直观迅速看到大体有哪些客户群体,对非技术同学很友好。

具体的客户群体特征分析,见前面Python那篇:数分基础(03-1)客户特征分析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/51603.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【vscode】vscode+cmake+llvm+ninja开发环境的搭建(draft)

文章目录 前言1 软件、工具和插件安装1.1 vscode安装1.2 cmake安装1.3 安装LLVM1.4 安装Ninja1.5 vscode插件安装 2 工具链和CMakeLists2.1 工具链(toolchain.cmake)2.2 CMakeLists.txt2.3 基本语法注释 前言 本文是一个使用vscode的小白扫盲贴。 所谓工…

科讯档案管理系统存在SQL注入漏洞(0day)

漏洞描述 安徽科迅教育装备20年来来始终坚持智慧校园集成方案产品的开发和部署应用,我们有完善的智慧校园和数字校园建设方案,根据不同的学校不同的实际情况量身定做系统集成方案。产品主要是为了实现校园的智慧网络、智慧OA、智慧教学、智慧学习、数字医…

.NET Razor类库-热加载 就是运行时编译

1.新建3个项目 1.1 一个.NET Standard2.1项目 IX.Sdk.SvnCICD4NuGet 1.2 一个.NET Razor类库项目 IX.Sdk.SvnCICD4NuGet.RazorWeb 1.3 一个.NET6 Web项目 IX.Sdk.SvnCICD4NuGet.Web 这3个项目的引用关系 Web引用 Razor类库 和 .NET Standard2.1 Razor类库引用.NET Standard2.1…

数据同步大冒险:PostgreSQL到MySQL的奇妙之旅

引言:一场跨数据库的浪漫邂逅 💑 在数据的世界里,不同数据库系统就像是来自不同星球的恋人,它们各自拥有独特的魅力,但偶尔也会渴望一场跨越界限的亲密接触。今天,我们就来见证一场PostgreSQL与MySQL之间的…

基于RK3588+MCU智能清洁车应用解决方案

智能清洁车应用解决方案 在智慧城市建设发展的过程中,智慧环卫是打造智慧城市的重要组成部分,智能清洁车作为实现环卫智能化、提升作业效率和服务质量的关键工具,发挥着不可或缺的作用。 智能清洁车集成了激光雷达、双目视觉、多重传感器以及…

无线通信频率分配

首先看看无线电信号的频谱如何划分: 一、5G NR 3GPP已指定5G NR 支持的频段列表,5G NR频谱范围可达100GHz,指定了两大频率范围: ① Frequency range 1 (FR1):就是我们通常讲的6GHz以下频段 频率…

uniapp uni-popup底部弹框留白 底部颜色修改 滚动穿刺

做底部弹框的时候,可能出现以下场景需要处理。 一、出现底部留白不是白色,需要修改颜色的时候: 1、如果弹框不需要圆角效果,则在uni-popup加上背景色就行,弹框是个直角样式: 2、如果需要圆角效果&#xff0…

CSS3页面布局-三栏-中栏流动布局

三栏-中栏流动布局 用负外边距实现 实现三栏布局且中栏内容区不固定的核心问题就是处理右栏的定位&#xff0c; 并在中栏内容区大小改变时控制右栏与布局的关系。 控制两个外包装容器的外边距&#xff0c;一个包围三栏&#xff0c;一个包围左栏和中栏。 <!DOCTYPE html&…

【vue、Electron】搭建一个Electron vue项目过程、将前端页面打包成exe 桌面应用

文章目录 前言使用 electron-vue 创建项目1. 安装 vue-cli&#xff08;如果未安装&#xff09;2. 使用 electron-vue 模板创建项目3. 安装和配置 electron-builder4. 运行Electron项目5. 打包应用 可能遇到的问题解决Electron vue首次启动巨慢无法加载执行npm run electron:bui…

grid布局实现移动端H5响应式排列正方形格子布局

grid布局实现移动端H5响应式排列正方形区域 grid布局&#xff1a;CSS Grid 网格布局教程在 CSS 中&#xff0c;padding-top 的百分比值是相对于元素自身的宽度&#xff0c;而不是高度。这是 CSS 规范中的一个特性&#xff0c;所有的 padding 和 margin 的百分比值都是相对于元…

客服系统简易版

整体架构解读 客服端和商城端都通过websocket连接到客服系统, 并定期维持心跳当客户接入客服系统时, 先根据策略选择在线客服, 然后再发送消息给客服 websocket实现 用netty实现websocket协议, 增加心跳处理的handler, 详见chat-server模块 客服路由规则 暂时仅支持轮询的…

上新!Matlab实现基于QRGRU-Attention分位数回归门控循环单元注意力机制的时间序列区间预测模型

目录 效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现基于QRGRU-Attention分位数回归门控循环单元注意力机制的时间序列区间预测模型&#xff1b; 2.多图输出、多指标输出(MAE、RMSE、MSE、R2)&#xff0c;多输入单输出&#xff0c;含不同置信区间图、概率…

出现Property ‘sqlSessionFactory‘ or ‘sqlSessionTemplate‘ are requiredProperty报错

目录&#xff1a; bug Property ‘sqlSessionFactory‘ or ‘sqlSessionTemplate‘ are requiredProperty报错解决方法 bug Property ‘sqlSessionFactory‘ or ‘sqlSessionTemplate‘ are requiredProperty 报错 在一个springboot demo启动的时候出现以下错误 &#xff0c;…

中国城市经济韧性数据集(2007-2022年)

数据来源&#xff1a;数据来自历年《中国城市统计NJ》、各省市《统计NJ》及《中国区域经济统计NJ》 时间范围&#xff1a;2007-2022年 数据范围&#xff1a;中国地级市样例数据&#xff1a; 包含内容&#xff1a; 全部内容下载链接&#xff08;原始数据计算代码最终数据&…

大数据基础:离线与实时数仓区别和建设思路

文章目录 离线与实时数仓区别和建设思路 一、离线数仓与实时数仓区别 ​​​​​​​二、实时数仓建设思路 离线与实时数仓区别和建设思路 ​​​​​​​一、离线数仓与实时数仓区别 离线数据与实时数仓区别如下&#xff1a; 对比方面 离线数仓 实时数仓 架构选择 传…

zdppy+vue3+onlyoffice文档管理系统实战 20240829上课笔记 Python验证码框架完成

遗留的问题 还没有测试校验的功能 测试校验验证码的功能 生成验证码 from .tobase64 import get_base64 from .validate import is_captchadef captcha(api, cache, num4, expire60):""":param cache: 缓存对象:param num: 验证码的个数:param expire: 验证…

C++系列-STL容器之vector

STL概念 vector基本概念vector与数组的区别vector容器的特点动态大小连续存储自动扩容尾部操作高效 vector动态扩展的含义vector常用的接口示意 vector的构造函数vector赋值操作重载赋值assign赋值 vector的容量和大小vector的插入和删除vector数据存取vector互换容器vector互换…

Apache RocketMQ 批处理模型演进之路

作者&#xff1a;谷乂 RocketMQ 的目标&#xff0c;是致力于打造一个消息、事件、流一体的超融合处理平台。这意味着它需要满足各个场景下各式各样的要求&#xff0c;而批量处理则是流计算领域对于极致吞吐量要求的经典解法&#xff0c;这当然也意味着 RocketMQ 也有一套属于自…

从开题到答辩:ChatGPT超全提示词分享!(上)【建议收藏】

在浩瀚的知识领域中&#xff0c;提问的艺术是探索真理的钥匙。在这个信息爆炸的时代&#xff0c;深入探索知识的海洋&#xff0c;不仅需要热情和毅力&#xff0c;更需要正确的方法和工具。学术研究是一个复杂而严谨的过程&#xff0c;涉及从选题、文献综述到研究设计、数据收集…

最新高仿拼夕夕源码/拼单系统源码/拼单商城/类目功能齐全

源码简介&#xff1a; 高仿拼夕夕源码&#xff0c;拼单商城系统源码、拼团商城源码&#xff0c;改的版本。拼夕夕拼团商城系统源码源码 多商户多区域拼团系统源码。 自己改的版本&#xff0c;类似于拼单的商城&#xff0c;功能齐全&#xff0c;看着还挺不错&#xff0c;绝对值…