大数据开发中如何计算用户留存及SQL示例

在大数据开发领域,用户留存是一个关键指标,它反映了产品吸引并保留用户的能力。
image.png

留存率的计算不仅有助于评估产品的健康状况,还能为产品优化和市场策略提供重要依据。

本文将详细介绍如何在大数据开发中计算用户留存,并附带具体的SQL示例。

目录

    • 留存的定义与意义
    • 留存率的计算公式
    • SQL示例:计算次日留存率
      • 第一步:数据预处理
      • 第二步:计算次日留存用户
      • 第三步:计算留存率
    • 完成SQL
    • 其他留存率计算方法
    • 总结

留存的定义与意义

image.png

留存是指用户在某一时间点(如注册日、首次使用日)后,在后续特定时间段内继续使用该产品的行为。留存率则是这些留存用户占初始用户的比例。留存率越高,说明产品越能吸引并保持用户的兴趣。

留存的意义在于:

  • 评估产品吸引力:留存率高的产品通常意味着用户对产品有较高的满意度和忠诚度。
  • 指导产品优化:通过分析不同时间段的留存率,可以识别产品改进的方向,如用户体验、功能设计等。
  • 制定市场策略:根据留存数据,可以制定更有针对性的营销策略,提高用户粘性和活跃度。

留存率的计算公式

image.png

留存率的计算公式通常为:
留存率 = 基准日后第n天活跃用户数 基准日用户数 × 100 % \text{留存率} = \frac{\text{基准日后第n天活跃用户数}}{\text{基准日用户数}} \times 100\% 留存率=基准日用户数基准日后第n天活跃用户数×100%
其中,基准日可以是用户注册日、首次使用日等,n可以是1天、7天、30天等,具体取决于分析需求。

SQL示例:计算次日留存率

以下是一个使用SQL计算次日留存率的示例。假设我们有一个用户行为日志表user_log,包含字段user_id(用户ID)、login_time(登录时间)等。

image.png

第一步:数据预处理

首先,我们需要从用户行为日志表中提取出每个用户的首次登录时间和后续登录时间。这里我们使用窗口函数来找出每个用户的首次登录时间。

WITH first_login AS (SELECTuser_id,MIN(login_time) AS first_login_timeFROMuser_logGROUP BYuser_id
)

第二步:计算次日留存用户

接下来,我们将用户行为日志表与首次登录时间表进行连接,并筛选出次日登录的用户。

, retention_users AS (SELECTa.user_id,a.login_time,DATE_ADD(b.first_login_time, INTERVAL 1 DAY) AS expected_next_dayFROMuser_log aJOINfirst_login b ON a.user_id = b.user_idWHEREDATE(a.login_time) = DATE(expected_next_day)
)

第三步:计算留存率

最后,我们计算次日留存用户数占初始用户数的比例。

SELECTCOUNT(DISTINCT r.user_id) AS next_day_retention_users,COUNT(DISTINCT f.user_id) AS initial_users,ROUND(COUNT(DISTINCT r.user_id) / COUNT(DISTINCT f.user_id) * 100, 2) AS next_day_retention_rate
FROMfirst_login f
LEFT JOINretention_users r ON f.user_id = r.user_id;

完成SQL

这个示例假设你有一个名为user_log的表,其中包含user_id(用户ID)和login_time(登录时间)字段。

-- 计算次日留存率
WITH FirstLogin AS (-- 找出每个用户的首次登录时间SELECTuser_id,MIN(login_time) AS first_login_timeFROMuser_logGROUP BYuser_id
),
RetentionUsers AS (-- 找出次日登录的用户SELECTa.user_id,a.login_time,DATE_ADD(b.first_login_time, INTERVAL 1 DAY) AS expected_next_dayFROMuser_log aJOINFirstLogin b ON a.user_id = b.user_idWHEREDATE(a.login_time) = DATE(expected_next_day)
)
-- 计算留存率
SELECTCOUNT(DISTINCT RetentionUsers.user_id) AS next_day_retention_users,COUNT(DISTINCT FirstLogin.user_id) AS initial_users,ROUND(COUNT(DISTINCT RetentionUsers.user_id) / COUNT(DISTINCT FirstLogin.user_id) * 100, 2) AS next_day_retention_rate
FROMFirstLogin
LEFT JOINRetentionUsers ON FirstLogin.user_id = RetentionUsers.user_id;

这个SQL查询首先使用WITH子句创建了两个临时表:FirstLoginRetentionUsersFirstLogin表包含每个用户的首次登录时间,而RetentionUsers表包含那些在首次登录后的次日也登录了的用户。最后,主查询计算了次日留存用户数、初始用户数以及次日留存率。
image.png

其他留存率计算方法

除了次日留存率,我们还可以计算3日留存率、7日留存率等。这些计算方法的思路与次日留存率类似,只是在筛选条件中将INTERVAL 1 DAY改为相应的天数即可。

总结

用户留存率是衡量产品健康度和用户粘性的重要指标。

在大数据开发中,我们可以通过SQL等工具高效地计算留存率,为产品优化和市场策略提供有力支持。

本文介绍了留存的定义、意义以及具体的SQL示例,希望能对大数据开发人员有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/38484.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

精密空气加热器负载组

小型便携式 :精密空气加热器(负载组)能够对数据中心热通道/冷通道冷却系统进行全面测试。EAK 是一款 19 英寸机架式设备(10U 高),可轻松安装到各种标准服务器机架中。通过集成可调节的热量水平(…

C++ :lambda表达式

目录 lambda表达式书写格式: lambda表达式各部分说明: lambda的使用示范: 注意事项: 返回值类型可以省略,参数也可也省略: sort内部也可以直接写lambda表达式: 排序时利用lambda进行排序…

STM32MP135裸机编程:使用软件触发硬件复位

0 参考资料 STM32MP13xx参考手册.pdf 1 使用寄存器实现软件复位 1.1 复位电路概述 重点关注下面标红的路线: 通过这条路线可以清楚看到,我们可以通过设置RCC_MP_GRSTCSETR寄存器让RPCTL(复位脉冲控制器)给NRST(硬件复…

苹果可能与谷歌合作推AI订阅服务;全国首个司法审判大模型在深圳上线

🦉 AI新闻 🚀 苹果可能与谷歌合作推AI订阅服务 摘要:苹果宣布将与OpenAI合作推出Apple Intelligence,并有望在今年秋季与谷歌达成合作,接入Gemini。Meta的Llama因质量不佳被拒。苹果计划推出订阅模式的智能功能服务&…

kafka的工作原理与常见问题

定义 kafka是一个分布式的基于发布/订阅模式的消息队列(message queue),主要应用于大数据的实时处理领域 消息队列工作原理 kafka的组成结构 kafka的基础架构主要有broker、生产者、消费者组构成,还包括zookeeper. 生产者负责发送…

算法09 日期相关模拟算法【C++实现】

这是《C算法宝典》算法篇的第09节文章啦~ 如果你之前没有太多C基础,请点击👉专栏:C语法入门,如果你C语法基础已经炉火纯青,则可以进阶算法👉专栏:算法知识和数据结构👉专栏&#xff…

Java代码生成器(开源版本)

一、在线地址 Java在线代码生成器:在线访问 二、页面截图 三、核心功能 支持Mybatis、MybatisPlus、Jpa代码生成使用 antlr4 解析SQL语句,保证了SQL解析的成功率支持自定义包名、作者名信息支持自定义方法名、接口地址支持自定义选择是否生成某个方法…

数学建模(1):期末大乱炖

1 概述!! 1.1 原型和模型 原型:客观存在的研究对象称为原型,也称为“系统”、“过程”。 机械系统、电力系统、化学反应过程、生产销售过程等都是原型; 研究原型的结构和原理, 从而进行优化、预测、评价…

Jedis、Lettuce、RedisTemplate连接中间件

jedis就像jdbc一样&#xff0c;用于两个端直接的连接。 1.创建Spring项目 这里不过多赘述... 2.导入连接工具jedis 在pom文件中导入jedis的依赖。 <dependency><groupId>redis.clients</groupId><artifactId>jedis</artifactId><version&…

结合数据索引结构看SQL的真实执行过程

引言 关于数据库设计与优化的前几篇文章中&#xff0c;我们提到了数据库设计优化应该遵守的指导原则、数据库底层的索引组织结构、数据库的核心功能组件以及SQL的解析、编译等。这些其实都是在为SQL的优化、执行的理解打基础。 今天这篇文章&#xff0c;我们以MySQL中InnoDB存…

CleanMyMacX2024免费且强大的mac电脑系统优化工具

如果你的Mac电脑出现了存储空间不足、运行缓慢、电池电量消耗过快等问题&#xff0c;那么CleanMyMacX这款软件或许能为你提供解决方案。作为一款强大的系统优化工具&#xff0c;它能够帮助用户清理垃圾文件、优化内存和电池使用&#xff0c;从而提升Mac的性能表现&#xff0c;让…

后端之路第三站(Mybatis)——XML文件操作sql

一、XML映射文件是啥 前面我们学过了在Mapper接口用注解的方式来操作sql语句 那么XML映射文件就另一种操作sql语句的方法 为什么还要有这么个玩意&#xff1f; 我简单说就是&#xff1a;如果有的sql特别复杂的话&#xff0c;比如需要【动态sql】的话&#xff0c;就得用到XM…

电脑开机之后,键盘鼠标需要重新插拔才能正常使用?

前言 小白平时修电脑修得多&#xff0c;总是会遇到各种各样的奇葩问题。这不&#xff0c;又有一位小伙伴来咨询&#xff1a;电脑开机之后&#xff0c;键盘鼠标都不能用&#xff0c;需要重新插拔一下才能正常使用。 啧啧啧&#xff0c;真的是很奇怪的问题&#xff0c;基本上没见…

SSH 无密登录配置流程

一、免密登录原理 非对称加密&#xff1a; 由于对称加密的存在弊端&#xff0c;就产生了非对称加密&#xff0c;非对称加密中有两个密钥&#xff1a;公钥和私钥。公钥由私钥产生&#xff0c;但却无法推算出私钥&#xff1b;公钥加密后的密文&#xff0c;只能通过对应的私钥来解…

光速入门 Tailwind CSS

文章目录 入门安装IDE 设置使用预编译器生产环境优化 基础概念分层指令tailwindlayerapplyconfig 函数theme()screen() 基础案例怎么设置属性任意值&#xff1f;hover 父元素时&#xff0c;怎么选中子元素添加样式&#xff1f;添加 animation 动画 配置主题 Tailwind CSS 中文网…

.so: file not recognized: file format not recognized

项目场景&#xff1a; 自Linux 4.8起&#xff0c;传统的GPIO sysfs接口被弃用。libgpiod操作gpio的方式感觉更加方便。 但是单板上好像没装这个工具&#xff0c;又到了熟悉的交叉编译环节&#xff08;痛苦&#xff09;。 问题描述 按照流程装完libgpiod&#xff0c;自信地去交…

Go源码--context包

简介 Context 是go语言比较重要的且也是比较复杂的一个结构体&#xff0c;Context主要有两种功能: 取消信号&#xff1a;包括直接取消&#xff08;涉及的结构体&#xff1a;cancelCtx ; 涉及函数&#xff1a;WithCancel&#xff09;和携带截止日期的取消&#xff08;涉及结构…

密室逃脱——收集版

一、原版修改 1、导入资源 Unity Learn | 3D Beginner: Complete Project | URP 2、设置Scene 删除SampleScene&#xff0c;打开UnityTechnologies-3DBeginnerComplete下的MainScene 3、降低音量 (1) 打开Hierarchy面板上的Audio降低音量 (2) 打开Prefabs文件夹&#xf…

Git安装与使用及整合IDEA使用的详细教程

1. 版本控制软件介绍 版本控制软件提供完备的版本管理功能&#xff0c;用于存储、追踪目录&#xff08;文件夹&#xff09;和文件的修改历史&#xff0c;是软件开发者的必备工具&#xff0c;是软件公司的基础设施。版本控制软件的最高目标&#xff0c;是支持软件公司的配置管理…

管理统计学

第1章 统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。 统计学是处理数据的方法论。 参数 表示总体特征的概括性数字度量&#xff0c;是研究者想要了解的总体的某种特征值。 统计量 是用来描述样本特征的概括性数字度量。 常用统计量包括&#xff1a; &#xff…