用户画像系统

                                  用户画像系统

1 用户画像概述

1.1 什么是用户画像

用户画像就是对现实世界中用户的数学建模。现实世界的用户通过自己各种各样的行为,浏览购买,或者收藏,等等这些行为会把自己的兴趣爱好等体现在这些行为中,比如喜欢看书就会有很多购买书的行为,行为就会把兴趣爱好暴露出来,我们就是要基于用户建模,把他兴趣的维度给划分清楚体现出来,才能充分了解用户。

用户画像是描述用户的数据,是符合特定需求的对用户形式化的描述,源于现实又高于现实。用户画像是通过分析挖掘用户尽可能得到多的数据信息。

1.2 用户画像作用

用户精细化营销:广告推送给谁,优惠券如何发放等

商户精细化支持:活动精准推送,定价策略

个性化:商品推荐,购物推荐

趋势预测:销售预测,票房预测

大数据报告:

 

2 用户标签画像

2.1 什么是标签

标签是某一种用户特征的符号表示,在商家眼里你会被贴上各种各样的标签比如男性,高富帅,高学历等等。一个人有很多标签,当商家想要了解客户的时候就要基于这些标签来生成用户画像,所以用户画像其实就是一个整体,包含了多个维度(由不同的标签的集合组成的),所以,用户画像可以用标签的集合来表示

2.2 用户标签的数学描述

用户标签的数学表示就是维度和特征空间,标签是特征空间中的维度,比如说你的基本信息就是你的性别和年龄,通过性别和年龄构成一个二维空间,这个二维空间可以把任何用户放到这个空间中去,这个二维空间就是非常简单的特征空间。在实际当中你的标签可能上百,上千,上万个。

每个标签都是特征空间中的基向量(向量:有方向有大小的量),基向量之间有关联,不一定是正交的

用户画像本质就是特征空间中的高维向量

用户标签举例引用下图

3 用户画像系统流程

总体来用,可以分成离线部分和在线部分,用户画像所需要的基础数据需要离线的先存储下来,再基于里面的数据进行建模,在线部分使得业务更加完善更加充实,所以总体大的部分是在离线这一端去做的。传统数据仓库也是一样的,在数据仓库中按照主题建模也会包含到用户画像这个过程。

流程分为5个步骤:

(1)明确问题:①追求数据的的匹配;②明确需求,是分类问题,还是聚类问题,还是推荐等③数据的规模,重要特征的覆盖度等

(2)数据预处理:进来的数据是多种多样的,如日志数据,第三方合作伙伴传过来接口的数据,这些数据都不是很规范,对同一个维度的表述有各自的标准,比如说男女的描述,有些用M|F,有些用0|1表示。①数据的集成,数据的冗余,数值的冲突,②数据采样③数据清洗,缺失值处理,噪声数据

(3)特征工程:①特征提取,业务日志,web抓取的数据,第三方数据②特征处理,特征清洗,特征预处理,如值处理,特征选择,特征组合,降维③特征监控,指标的实效性,覆盖率,异常值

(4)模型算法:统计,分类,回归,聚类,语义,高维偏好等

(5)产生:如个性化推荐,个性化广告

4 用户画像架构

5 性别预测分析步骤

(1)明确问题:①属于数据挖掘中的哪一类分类,聚类还是推荐等?年龄预测属于分类问题;②数据集规模,数据集是否够大?分类需要大数据集;③问题假设,数据是否满足所有问题的假设?男女的行为是否不同,比如买手机行为不带有性别特征,买口红,香烟等就带有性别特征。

(2)数据预处理:

(3)特征工程:①单个特征分析:1)数值型特征的处理,如使用app时长,可用高,中,低三个档次,将启动次数分段成离散值;2)类别型特征的处理,如用户使用的设备是华为,或者小米,这是类别特征,可用采用0-1编码来处理;3)数据归一化。

②多个特征分析:1)设备类型是否决定了类型?做相关性分析,计算相关系数。2)app启动次数和停留时长完全正相关,结果表明特别相关,去掉停留时长或启动次数;2)如果特征太多,需要做降维处理

③文本数据处理的典型步骤:网页-》分词-》去停用次-》向量化。 分词可以采用jieba分词;去停用词,停用词表除了加入常规的停用词外,还可将DF较高的词加入停用词表;向量化一般是将文本转换为TF或TF-IDF向量

④算法和模型:1:)选择算法需要考虑的因素,如训练集的大小,特征维度的大小,要解决的问题是否是线性可分的,所有特征是独立的吗,需不需要考虑过拟合问题,对性能有哪些要求等。

⑤算法和模型的评价:分类模型采用混淆矩阵,可参见分类模型评估的文章https://blog.csdn.net/weixin_43786255/article/details/100174121

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/473777.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

编程思想:面向对象和面向过程

何谓面向对象?何谓面向过程?对于这编程界的两大思想,一直贯穿在我们学习和工作当中。我们知道面向过程和面向对象,但要让我们讲出来个所以然,又感觉是不知从何说起,最后可能也只会说出一句就是那样啦&#…

LeetCode 1210. 穿过迷宫的最少移动次数(状态压缩BFS)

文章目录1. 题目2. 解题1. 题目 你还记得那条风靡全球的贪吃蛇吗? 我们在一个 n*n 的网格上构建了新的迷宫地图,蛇的长度为 2,也就是说它会占去两个单元格。 蛇会从左上角((0, 0) 和 (0, 1))开始移动。 我们用 0 表示…

读书笔记2013第18本:《像外行一样思考,像专家一样实践》

这本书是在看《暗时间》时收集到的,书的副标题是科研成功之道,自己是个信息工作者,也号称科研工作者,虽然经常忙着一些杂活,没有时间认真思考和做实验。但从中找点立项、研究、演讲、总结的经验也是有益的。这本书的目…

Django模板(编写html代码

1.模板 用于编写html代码,还可以嵌入模板代码更快更方便的完成页面开发,再通过在视图中渲染模板,将生成最终的html字符串返回给客户端浏览器 模版致力于表达外观,一个视图可以使用任意一个模板,一个模板可以供多个视图…

用户画像之Spark ML实现

用户画像之Spark ML实现 1 Spark ML简单介绍 Spark ML是面向DataFrame编程的。Spark的核心开发是基于RDD(弹性分布式数据集),但是RDD,但是RDD的处理并不是非常灵活,如果要做一些结构化的处理,将RDD转换成…

EBS业务学习之应收管理

Oracle Receivable 是功能完备地应收款管理系统,它能够有效地管理客户、发票和收帐过程,因此是财务模块的重要组成部分,是财务系统中较为核心的模块之一。对于一个公司来说,是否能够与客户保持良好的跟踪,及时收取应收…

[Kaggle] Digit Recognizer 手写数字识别(神经网络)

文章目录1. baseline2. 改进2.1 增加训练时间2.2 更改网络结构Digit Recognizer 练习地址 相关博文: [Hands On ML] 3. 分类(MNIST手写数字预测) [Kaggle] Digit Recognizer 手写数字识别 1. baseline 导入包 import tensorflow as tf fr…

逻辑回归原理

逻辑回归原理 1 逻辑回归简介 logistic回归(LR),是一种广义的线性回归分析模型,常用于数据挖掘,疾病预测,经济预测等方面。 优点:计算代价低,思路清晰易于理解和实现;…

Django中示例验证码的实现总结

验证码 在用户注册、登录页面,为了防止暴力请求,可以加入验证码功能,如果验证码错误,则不需要继续处理,可以减轻业务服务器、数据库服务器的压力。 1)安装包Pillow3.4.1。 1pip install Pillow3.4.1点击查看…

java.lang.IllegalStateException: Not connected to server

在开发人际银行的时候 客户端smack老是出现如下错误: 12-09 13:00:37.115: E/AndroidRuntime(5221): FATAL EXCEPTION: Thread-1812-09 13:00:37.115: E/AndroidRuntime(5221): java.lang.IllegalStateException: Not connected to server.12-09 13:00:37.115: E/AndroidRuntim…

LeetCode 956. 最高的广告牌(DP)

文章目录1. 题目2. 解题1. 题目 你正在安装一个广告牌,并希望它高度最大。 这块广告牌将有两个钢制支架,两边各一个。每个钢支架的高度必须相等。 你有一堆可以焊接在一起的钢筋 rods。 举个例子,如果钢筋的长度为 1、2 和 3,则…

python面试题总结(一)字符串反转,写取指定数函数

1.请至少用一种方法下面字符串的反转? # 1.请至少用一种方法下面字符串的反转? s hello print() print(-a1-切片,简单的步长为-1, 即字符串的翻转(常用)-) #方法一:切片,简单的步长为-1, 即字符串的翻转(常用); a1s[::-1] print(a1)print() …

新闻发布系统登陆页

主要为前台设计&#xff0c;这真是一个细致活。另外用到圆角矩形制作&#xff0c;其实学会了也蛮简单的。 要学好后台对前台一定要有一定的了解并掌握一些相关知识。 以下为登录页代码&#xff1a; <% Page Language"C#" AutoEventWireup"true" CodeFil…

Tensorflow线程队列与IO操作

目录 Tensorflow线程队列与IO操作 1 线程和队列 1.1 前言 1.2 队列 1.3 队列管理器 1.4 线程协调器 2 文件读取 2.1 流程 2.2 文件读取API&#xff1a; 3 图像读取 3.1 图像读取基本知识 3.2 图像基本操作 3.3 图像读取API 3.4 图片批处理流程 3.5 读取图片案例 …

Django其他(站点、列表、上传

1.静态文件&#xff1a; 项目中的CSS、图片、js都是静态文件 一般会将静态文件放到一个单独的目录中&#xff0c;以方便管理 在html页面中调用时&#xff0c;也需要指定静态文件的路径&#xff0c;Django中提供了一种解析的方式配置静态文件路径 静态文件可以放在项目根目录下…

LeetCode 1298. 你能从盒子里获得的最大糖果数(BFS)

文章目录1. 题目2. 解题1. 题目 给你 n 个盒子&#xff0c;每个盒子的格式为 [status, candies, keys, containedBoxes] &#xff0c;其中&#xff1a; - 状态字 status[i]&#xff1a;整数&#xff0c;如果 box[i] 是开的&#xff0c;那么是 1 &#xff0c;否则是 0 。 - 糖…

给javascript初学者的24条最佳实践

1.使用 代替 JavaScript 使用2种不同的等值运算符&#xff1a;|! 和 |!&#xff0c;在比较操作中使用前者是最佳实践。 “如果两边的操作数具有相同的类型和值&#xff0c;返回true&#xff0c;!返回false。”——JavaScript&#xff1a;语言精粹 然而&#xff0c;当使用和&a…

Python面试题(二)列表去重,单例

1.Python里面如何实现tuple和list的转换python中&#xff0c;tuple和list均为内置类型&#xff0c; 以list作为参数将tuple类初始化&#xff0c;将返回tuple类型tuple([1,2,3]) #list转换为tuple以tuple作为参数将list类初始化&#xff0c;将返回list类型list((1,2,3)) #tuple转…

LeetCode 1614. 括号的最大嵌套深度

文章目录1. 题目2. 解题1. 题目 如果字符串满足一下条件之一&#xff0c;则可以称之为 有效括号字符串&#xff08;valid parentheses string&#xff0c;可以简写为 VPS&#xff09;&#xff1a; 字符串是一个空字符串 ""&#xff0c;或者是一个不为 "("…

[AngularJS]Chapter 1 AnjularJS简介

创建一个完美的Web应用程序是很令人激动的&#xff0c;但是构建这样应用的复杂度也是不可思议的。我们Angular团队的目标就是去减轻构建这样AJAX应用的复杂度。在谷歌我们经历过各种复杂的应用创建工作比如&#xff1a;GMail、Map和日历。我们认为我们有必要把这些经验总结下来…