用户行为分析是什么?为什么我们需要 bitmap?

本文非常好:https://blog.bcmeng.com/post/doris-bitmap.html
meta搜也非常好:https://metaso.cn/

用户行为分析是什么?简单说,就是围绕全体用户,做各种分析。用户就是一个个的 id。id 在不同方面有各种行为记录,我们需要根据不同行为做分析。
在这里插入图片描述
两个行为如何关联呢?很简单:一个用户,做了A又做了B,那么他就留下了两行记录,id 出现了两次。

如何筛选出做了A还做了B的用户?用 JOIN 是可以的,用 BITMAP 更高效。

下面,(https://blog.bcmeng.com/post/doris-bitmap.html)文中列举了很多圈人场景,值得学习:

 为什么要做用户行为分析呢? 其终极目的就是为了不断优化产品,提升用户体验,让用户花更多的时间,花更多的钱在自己的产品上。图中列出了常见的用户行为模型,比如留存分析,是指用户在某段时间内开始使用应用,经过一段时间后,仍然继续使用该应用的用户,被认作是该应用的留存用户。比如某应用某天新增用户 1 万人,然后低二天只有 5 千人打开过应用,那么日留存就是 50%。还有漏斗分析,最常见的就是一个转换漏斗,就是从展现页开始,有多少人会点击,进而有多少人会访问,最后又多少人会咨询和下单,这里面每一步的人数都会减少,用图画出来的话,刚好就是一个漏斗的形状。还有点击分析,就是可以根据用户在整个页面的点击浏览,情况,知道哪些图片,广告是设置合理的,哪些是有问题的,进而进行改进。 比如双 11 京东,天猫的首页,每个图片怎么放置,决定不是随便放的,背后肯定是有数据支撑的。剩下的就不一一介绍了。大家需要注意一点,目前我们数据库是可以回答用户行为 What 和 Why 的问题,而和机器学习结合后,我们是可以直接进行预测用户行为的。目前用户行为分析的解法大概有这么几种:第一种就数据库的 Join 解法,一般效率是比较低的。 我们在 Doris 中是可以用这种思路实现的。第二种是基于明细数据的,UDAF 实现。Doris 也是支持的。第三种是基于 Bitmap 的 UDAF 实现的,也就是今天要分享的。第四种是用专用的系统来做用户行为分析,专用系统的好处是可以针对特定场景,做更多的优化。而且在专用系统里,很多公司也采用了基于 Bitmap 的方案,原因是我们可以用 1 个 bit 位表示一个用户,那么 Bitmap 的交,并,差,对称差集等运算都可以和大多数用户行为模型对应起来,并且 Bitmap 的交,并,差,对称差集运算可以借助 SIMD 指令加速,是很高效的。比如, 去重用户就是 Bitmap 取 1 的个数,活跃用户就是两个 Bitmap 取并集,重度用户,留存用户,转换可以是两个 Bitmap 取交集,新增用户可以是 Bitmap 取差集等等。

存留分析、漏斗分析、点击分析,这些分析场景,都会用到 bitmap。 OVER。

以下数据来自metaso搜索引擎:https://metaso.cn/search/8459168987833442304

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/761517.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

查询表中数据(全列/特定列/表达式,where子句(比较/逻辑运算符),order by子句,limit筛选分页),mysql执行顺序

目录 select 全列查询 特定列查询 用表达式查询 (as) 名字 distinct 去重 where子句 比较运算符 列数据之间的比较 ​编辑 别名不能参与比较 null查询 between and in ( ... , ...) 模糊匹配 逻辑运算符 order by子句 可以使用别名 总结mysql执行顺…

开发指南016-前端图标规范

平台为了保证统一性,做了很多约定,例如按钮图标等,平台规定图标取自这两个地方。在整个平台上运行的系统必须保持一致。在这个层面上不允许个性发挥。 1) font-awesome import font-awesome/css/font-awesome.min.css // font-awesome …

自然灾害威力大 北斗预警守护家

从台风强降雨的洪流到山火肆虐,近几年来自然灾害对人民群众造成的伤害越发沉重,我们无法根本上杜绝自然灾害的发生,如果在灾害发生前能够及时准确的播报相关预警信息,给人民群众尽力争取转移的时间,那将可以减免损失&a…

使用CLion用C语言进行开发时对于不同场景应选择的环境与异常处理模型选项

选择CLion编写C语言开发环境时,究竟是使用VS2019(Microsoft Visual Studio 2019)环境还是MinGW环境,这主要取决于您的具体需求和偏好: Visual Studio 2019 (MSVC): 优点: VS2019 是一个功能强大的集成开发环…

实验四 前端性能优化-图片优化

仓库地址:bj-front: 前端性能与工程化 - Gitee.com 图像通常是网站负载的最大组成部分。互联网中的图像除了提供视觉体验,还需提供设备需要的合适的图像,选择合适的图像的格式,并针对图片做适当的优化,有利于提升页面…

统一过程的概念以及案例介绍

统一过程(Unified Process,简称UP)是一种迭代和增量的软件开发过程框架。它是用来指导如何使用面向对象的方法和UML(统一建模语言,Unified Modeling Language)来进行有效软件开发的。统一过程结合了最佳实践…

【小沐学AI】Google AI大模型的一点点学习(Python)

文章目录 1、Google AI简介1.1 Google AI Studio1.2 Bard1.3 PaLM1.4 Gemini1.5 Gemini API1.6 Vertex AI1.7 Gemma 2、Google AI开发2.1 快速入门2.1.1 配置开发环境2.1.2 列出所有模型2.1.3 从文本输入生成文本2.1.4 从图像和文本输入生成文本2.1.5 聊天对话 结语 1、Google …

23.CP AUTOSAR PostBuild怎么用(2)

目录 1.引入 2. Post-Build Loadable集成要点 3.SWC上的变体管理 1.引入 在前一篇,我们分别讲了AUTSAR对于配置数据编译时间的设计,如下: Pre-CompileTime:在这个阶段配置参数参与编译后就无法再改变了,常见的如宏定义,该方式可以有效缩减代码量,节省Flash空间。…

LeetCode 0310.最小高度树:拓扑排序秒了

【LetMeFly】310.最小高度树:拓扑排序秒了 力扣题目链接:https://leetcode.cn/problems/minimum-height-trees/ 树是一个无向图,其中任何两个顶点只通过一条路径连接。 换句话说,一个任何没有简单环路的连通图都是一棵树。 给你…

代码随想录算法训练营 DAY 16 | 104.二叉树最大深度 111.二叉树最小深度 222.完全二叉树的节点个数

104.二叉树最大深度 深度和高度 二叉树节点的深度:指从根节点到该节点的最长简单路径边的条数或者节点数(取决于深度从0开始还是从1开始)二叉树节点的高度:指从该节点到叶子节点的最长简单路径边的条数或者节点数(取…

【OpenVINO】解决OpenVINO在GPU推理中报错的方法

1. 问题描述 使用OpenVINO进行深度学习推理时&#xff0c;通常会借助GPU以提升计算速度。然而&#xff0c;有时候运行程序时候会出现如下错误&#xff1a; <kernel>:8153:2: error: expected identifier or (unroll_for (int i 0; i < TILE_SIZE; i) {^ <kernel…

rk3568 安卓11双屏异显,隐藏副屏的导航栏

rk3568 安卓11双屏异显&#xff0c;当前项目有两个屏&#xff0c;一个是mipi 接口设为主屏&#xff0c;一个rgb 接口设为副屏&#xff0c;现在需要将副屏底部虚拟导航栏隐藏&#xff0c;有快速的方法&#xff1a; 在framework/base/services/core/java/com/android/server/wm/D…

Linux学习:git补充与调试工具gdb

目录 1. git版本控制器&#xff08;续&#xff09;1.1 git本地仓库结构1.2 git实现版本控制与多人协作的方式1.3 git相关指令&#xff0c;多分支模型与.gitignore文件 2. gdb调试工具2.1 企业项目开发流程简述与调试的必要性2.2 bug的调试思路方法与调式工具的使用 1. git版本控…

软考高级:特定领域软件架构(DSSA)概念和例题

作者&#xff1a;明明如月学长&#xff0c; CSDN 博客专家&#xff0c;大厂高级 Java 工程师&#xff0c;《性能优化方法论》作者、《解锁大厂思维&#xff1a;剖析《阿里巴巴Java开发手册》》、《再学经典&#xff1a;《Effective Java》独家解析》专栏作者。 热门文章推荐&am…

P3378 【模板】堆

题目描述 给定一个数列&#xff0c;初始为空&#xff0c;请支持下面三种操作&#xff1a; 给定一个整数 x&#xff0c;请将 x 加入到数列中。输出数列中最小的数。删除数列中最小的数&#xff08;如果有多个数最小&#xff0c;只删除 1 个&#xff09;。 输入格式 第一行是一个…

linux网络固定ip的方式

1. 注意 默认情况下&#xff0c;我们linux操作系统 ip 获取的方式是自动获取的方式&#xff08;DHCP&#xff09;&#xff0c;自动获取在我们需要进行集群配置的时候&#xff0c;IP会经常变化&#xff0c;需要将IP固定下来。 2. 第一步 编辑我们 linux 的网卡文件 这个网卡文件…

03. Java 的流程控制

三种基本结构 顺序结构、循环结构和选择结构是程序设计中常见的三种基本结构&#xff0c;它们共同构建了程序的执行流程&#xff1a; 顺序结构&#xff1a;就像一条直线&#xff0c;代码按照从上到下的顺序依次执行&#xff0c;一个步骤接着一个步骤。这种结构简单直接&#…

JSON 数据(就是字符串)格式的转换

1.JSON 的介绍&#xff1a;JSON&#xff08;JavaScript Object Notation&#xff09;是一种轻量级的数据交换格式&#xff0c;它以易于阅读和编写的文本格式来表示结构化数据。JSON常用于前后端之间的数据传输和存储。 JSON的主要作用有以下几点&#xff1a; 1> 数据交换&a…

环境变量配置

举一个小例子来演示一下环境变量配置。 在CMD中打开QQ界面&#xff0c;首先需要知道QQ.exe文件的完整路径。一旦有了这个路径&#xff0c;可以按照以下步骤操作&#xff1a; 打开CMD窗口。可以通过按下Windows键R&#xff0c;输入“cmd”并回车来打开它。在CMD窗口中&#xf…

【LINUX笔记】驱动开发框架

应用程序调动驱动程序 驱动模块运行模式 模块加载-卸载 加载卸载注册函数 加载 驱动编译完成以后扩展名为.ko&#xff0c;有两种命令可以加载驱动模块&#xff1a; insmod和modprobe 驱动卸载 驱动注册注销 //查看当前已经被使用掉的设备号 cat /proc/devices 实现设备的具…