用户画像系统

                                  用户画像系统

1 用户画像概述

1.1 什么是用户画像

用户画像就是对现实世界中用户的数学建模。现实世界的用户通过自己各种各样的行为,浏览购买,或者收藏,等等这些行为会把自己的兴趣爱好等体现在这些行为中,比如喜欢看书就会有很多购买书的行为,行为就会把兴趣爱好暴露出来,我们就是要基于用户建模,把他兴趣的维度给划分清楚体现出来,才能充分了解用户。

用户画像是描述用户的数据,是符合特定需求的对用户形式化的描述,源于现实又高于现实。用户画像是通过分析挖掘用户尽可能得到多的数据信息。

1.2 用户画像作用

用户精细化营销:广告推送给谁,优惠券如何发放等

商户精细化支持:活动精准推送,定价策略

个性化:商品推荐,购物推荐

趋势预测:销售预测,票房预测

大数据报告:

 

2 用户标签画像

2.1 什么是标签

标签是某一种用户特征的符号表示,在商家眼里你会被贴上各种各样的标签比如男性,高富帅,高学历等等。一个人有很多标签,当商家想要了解客户的时候就要基于这些标签来生成用户画像,所以用户画像其实就是一个整体,包含了多个维度(由不同的标签的集合组成的),所以,用户画像可以用标签的集合来表示

2.2 用户标签的数学描述

用户标签的数学表示就是维度和特征空间,标签是特征空间中的维度,比如说你的基本信息就是你的性别和年龄,通过性别和年龄构成一个二维空间,这个二维空间可以把任何用户放到这个空间中去,这个二维空间就是非常简单的特征空间。在实际当中你的标签可能上百,上千,上万个。

每个标签都是特征空间中的基向量(向量:有方向有大小的量),基向量之间有关联,不一定是正交的

用户画像本质就是特征空间中的高维向量

用户标签举例引用下图

3 用户画像系统流程

总体来用,可以分成离线部分和在线部分,用户画像所需要的基础数据需要离线的先存储下来,再基于里面的数据进行建模,在线部分使得业务更加完善更加充实,所以总体大的部分是在离线这一端去做的。传统数据仓库也是一样的,在数据仓库中按照主题建模也会包含到用户画像这个过程。

流程分为5个步骤:

(1)明确问题:①追求数据的的匹配;②明确需求,是分类问题,还是聚类问题,还是推荐等③数据的规模,重要特征的覆盖度等

(2)数据预处理:进来的数据是多种多样的,如日志数据,第三方合作伙伴传过来接口的数据,这些数据都不是很规范,对同一个维度的表述有各自的标准,比如说男女的描述,有些用M|F,有些用0|1表示。①数据的集成,数据的冗余,数值的冲突,②数据采样③数据清洗,缺失值处理,噪声数据

(3)特征工程:①特征提取,业务日志,web抓取的数据,第三方数据②特征处理,特征清洗,特征预处理,如值处理,特征选择,特征组合,降维③特征监控,指标的实效性,覆盖率,异常值

(4)模型算法:统计,分类,回归,聚类,语义,高维偏好等

(5)产生:如个性化推荐,个性化广告

4 用户画像架构

5 性别预测分析步骤

(1)明确问题:①属于数据挖掘中的哪一类分类,聚类还是推荐等?年龄预测属于分类问题;②数据集规模,数据集是否够大?分类需要大数据集;③问题假设,数据是否满足所有问题的假设?男女的行为是否不同,比如买手机行为不带有性别特征,买口红,香烟等就带有性别特征。

(2)数据预处理:

(3)特征工程:①单个特征分析:1)数值型特征的处理,如使用app时长,可用高,中,低三个档次,将启动次数分段成离散值;2)类别型特征的处理,如用户使用的设备是华为,或者小米,这是类别特征,可用采用0-1编码来处理;3)数据归一化。

②多个特征分析:1)设备类型是否决定了类型?做相关性分析,计算相关系数。2)app启动次数和停留时长完全正相关,结果表明特别相关,去掉停留时长或启动次数;2)如果特征太多,需要做降维处理

③文本数据处理的典型步骤:网页-》分词-》去停用次-》向量化。 分词可以采用jieba分词;去停用词,停用词表除了加入常规的停用词外,还可将DF较高的词加入停用词表;向量化一般是将文本转换为TF或TF-IDF向量

④算法和模型:1:)选择算法需要考虑的因素,如训练集的大小,特征维度的大小,要解决的问题是否是线性可分的,所有特征是独立的吗,需不需要考虑过拟合问题,对性能有哪些要求等。

⑤算法和模型的评价:分类模型采用混淆矩阵,可参见分类模型评估的文章https://blog.csdn.net/weixin_43786255/article/details/100174121

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/473777.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

编程思想:面向对象和面向过程

何谓面向对象?何谓面向过程?对于这编程界的两大思想,一直贯穿在我们学习和工作当中。我们知道面向过程和面向对象,但要让我们讲出来个所以然,又感觉是不知从何说起,最后可能也只会说出一句就是那样啦&#…

LeetCode 1210. 穿过迷宫的最少移动次数(状态压缩BFS)

文章目录1. 题目2. 解题1. 题目 你还记得那条风靡全球的贪吃蛇吗? 我们在一个 n*n 的网格上构建了新的迷宫地图,蛇的长度为 2,也就是说它会占去两个单元格。 蛇会从左上角((0, 0) 和 (0, 1))开始移动。 我们用 0 表示…

Django模板(编写html代码

1.模板 用于编写html代码,还可以嵌入模板代码更快更方便的完成页面开发,再通过在视图中渲染模板,将生成最终的html字符串返回给客户端浏览器 模版致力于表达外观,一个视图可以使用任意一个模板,一个模板可以供多个视图…

用户画像之Spark ML实现

用户画像之Spark ML实现 1 Spark ML简单介绍 Spark ML是面向DataFrame编程的。Spark的核心开发是基于RDD(弹性分布式数据集),但是RDD,但是RDD的处理并不是非常灵活,如果要做一些结构化的处理,将RDD转换成…

[Kaggle] Digit Recognizer 手写数字识别(神经网络)

文章目录1. baseline2. 改进2.1 增加训练时间2.2 更改网络结构Digit Recognizer 练习地址 相关博文: [Hands On ML] 3. 分类(MNIST手写数字预测) [Kaggle] Digit Recognizer 手写数字识别 1. baseline 导入包 import tensorflow as tf fr…

逻辑回归原理

逻辑回归原理 1 逻辑回归简介 logistic回归(LR),是一种广义的线性回归分析模型,常用于数据挖掘,疾病预测,经济预测等方面。 优点:计算代价低,思路清晰易于理解和实现;…

LeetCode 956. 最高的广告牌(DP)

文章目录1. 题目2. 解题1. 题目 你正在安装一个广告牌,并希望它高度最大。 这块广告牌将有两个钢制支架,两边各一个。每个钢支架的高度必须相等。 你有一堆可以焊接在一起的钢筋 rods。 举个例子,如果钢筋的长度为 1、2 和 3,则…

Tensorflow线程队列与IO操作

目录 Tensorflow线程队列与IO操作 1 线程和队列 1.1 前言 1.2 队列 1.3 队列管理器 1.4 线程协调器 2 文件读取 2.1 流程 2.2 文件读取API: 3 图像读取 3.1 图像读取基本知识 3.2 图像基本操作 3.3 图像读取API 3.4 图片批处理流程 3.5 读取图片案例 …

LeetCode 1298. 你能从盒子里获得的最大糖果数(BFS)

文章目录1. 题目2. 解题1. 题目 给你 n 个盒子,每个盒子的格式为 [status, candies, keys, containedBoxes] ,其中: - 状态字 status[i]:整数,如果 box[i] 是开的,那么是 1 ,否则是 0 。 - 糖…

给javascript初学者的24条最佳实践

1.使用 代替 JavaScript 使用2种不同的等值运算符:|! 和 |!,在比较操作中使用前者是最佳实践。 “如果两边的操作数具有相同的类型和值,返回true,!返回false。”——JavaScript:语言精粹 然而,当使用和&a…

LeetCode 1614. 括号的最大嵌套深度

文章目录1. 题目2. 解题1. 题目 如果字符串满足一下条件之一,则可以称之为 有效括号字符串(valid parentheses string,可以简写为 VPS): 字符串是一个空字符串 "",或者是一个不为 "("…

[AngularJS]Chapter 1 AnjularJS简介

创建一个完美的Web应用程序是很令人激动的,但是构建这样应用的复杂度也是不可思议的。我们Angular团队的目标就是去减轻构建这样AJAX应用的复杂度。在谷歌我们经历过各种复杂的应用创建工作比如:GMail、Map和日历。我们认为我们有必要把这些经验总结下来…

LeetCode 1615. 最大网络秩(出入度)

文章目录1. 题目2. 解题1. 题目 n 座城市和一些连接这些城市的道路 roads 共同组成一个基础设施网络。 每个 roads[i] [ai, bi] 都表示在城市 ai 和 bi 之间有一条双向道路。 两座不同城市构成的 城市对 的 网络秩 定义为:与这两座城市 直接 相连的道路总数。如果…

使用JSLint提高JS代码质量

随着富 Web 前端应用的出现,开发人员不得不重新审视并重视 JavaScript 语言的能力和使用,抛弃过去那种只靠“复制 / 粘贴”常用脚本完成简单前端任务的模式。JavaScript 语言本身是一种弱类型脚本语言,具有相对于 C 或 Java 语言更为松散的限…

Django工具:Git简介与基本操作

1.Git简介: 1.Git是目前世界上最先进的分布式版本控制系统 网址:http://github.com 2.总结git的两大特点: 版本控制:可以解决多人同时开发的代码问题,也可以解决找回历史代码的问题 分布式:Git是分布式…

LeetCode 1616. 分割两个字符串得到回文串

文章目录1. 题目2. 解题1. 题目 给你两个字符串 a 和 b ,它们长度相同。 请你选择一个下标,将两个字符串都在 相同的下标 分割开。 由 a 可以得到两个字符串: aprefix 和 asuffix ,满足 a aprefix asuffix ,同理&am…

Kafka基础

Kafka基础 1 消息队列 1.1 什么是消息队列 消息队列(MQ):消息队列,保存消息的队列。消息的传输过程中的容器;主要提供生产、消费接口供外部调用做数据的存储和获取。 1.2 为什么要有消息队列 当网站面对教大的流量…

系统总结学习 Python 的 14 张思维导图

本文主要涵盖了 Python 编程的核心知识(暂不包括标准库及第三方库)。 首先,按顺序依次展示了以下内容的一系列思维导图:基础知识,数据类型(数字,字符串,列表,元组&#x…

LeetCode 1617. 统计子树中城市之间最大距离(枚举所有可能+图的最大直径)

文章目录1. 题目2. 解题1. 题目 给你 n 个城市,编号为从 1 到 n 。同时给你一个大小为 n-1 的数组 edges ,其中 edges[i] [ui, vi] 表示城市 ui 和 vi 之间有一条双向边。 题目保证任意城市之间只有唯一的一条路径。换句话说,所有城市形成了…

MYSQL电脑客户端免安装教程以及出现问题解决方案

准备工作:window 7 64位旗舰版 MySQL 5.6.35免安装。 1. 下载MySQL 1.1 进入MySQL官网下载(https://www.mysql.com/)MySQL的安装包。 1.2. 根据自己电脑的位数(32位/64位)来下载响应的MySQL 、 2. 部署MySQL 2.1 解压压缩包到自己的某个盘…