【机器学习】《机器学习算法竞赛实战》第7章用户画像

文章目录

  • 第7章 用户画像
    • 7.1 什么是用户画像
    • 7.2 标签系统
      • 7.2.1 标签分类方式
      • 7.2.2 多渠道获取标签
      • 7.2.3 标签体系框架
    • 7.3 用户画像数据特征
      • 7.3.1 常见的数据形式
      • 7.3.2 文本挖掘算法
      • 7.3.3 神奇的嵌入表示
      • 7.3.4 相似度计算方法
    • 7.4 用户画像的应用
      • 7.4.1 用户分析
      • 7.4.2 精准营销
      • 7.4.3 风控领域
    • 7.5 思考练习

这本书写的挺好,干货满满。除了课后题,有必要对内容做一下总结。
与文章框架保持一致,基本在抄书……学渣的我……

第7章 用户画像

7.1 什么是用户画像

机器学习中提到的用户画像,通常是基于给定的数据对用户属性、行为进行描述,然后提取个性化指标,再以此分析可能存在的群体共性,并落地应用到各种业务场景中。
在这里插入图片描述

7.2 标签系统

用户画像核心:“打标签”,即标签化用户的行为特征。
企业通过标签,分析用户(社会属性、生活习惯、消费行为)===>商业应用

7.2.1 标签分类方式

直接拍了张照片,因为我觉得我画的不如人家的好看,而且还浪费时间。凑合看下,了解即可:
在这里插入图片描述

7.2.2 多渠道获取标签

获取标签的渠道主要有三种:事实类标签、规则类标签、模型类标签。

  • 事实类标签
    来源于:①原始数据:性别、年龄、会员等级。
    ②统计数据:用户行为次数、消费总额。
  • 规则类标签
    依据是设置的规则。
    举例:地域所属、家庭类型、年龄层
    比如,所在地在山东,业务规则可以划分为“华北”,也可以是”东部“,也可以是“北方”。根据具体的业务规则会有不同的结 果标签,这就是规则类标签。
    规则类标签用到的主要技能是数理统计类知识:基础统计、数值分层、概率分布、均值分析、方差分析等。
    在这里插入图片描述
  • 模型类标签
    模型类标签是经过机器学习和深度学习等模型处理后,二次加工生成的洞察性标签。
    举例:预测用户状态、预测用户信用分、划分兴趣人群和对评论文本进行分类等。 在这里插入图片描述
    【总结】我的理解
    规则类标签,是基于用户历史行为,对用户的行为、偏好、价值做出判断,可以看作依然属于历史范畴。
    模型类标签,主要是对用户进行预测,或者文本分类。可以认为是对未来、或者深层次的信息进行加工。===>两个方向:未来、深度。

7.2.3 标签体系框架

包含四个部分:数据源、标签管理、标签层级分类、标签服务赋能。
在这里插入图片描述

  • 数据源:离线、实时、第三方
  • 标签管理
  • 标签层级分类:上面提到的三种标签,事实类、规则类、模型类。
  • 标签服务赋能:画像分析、选人选品、个性化推荐、风控建模、精准营销===>商业落地

7.3 用户画像数据特征

用户画像的数据来源主要有三种:用户数据、商品数据、渠道数据。
可以通过统计、编码、降维提取有效特征===>构造标签

7.3.1 常见的数据形式

四种:数值型变量、类别型变量、多值型变量、文本型变量。

  • 数值型变量:年龄、身高、体重、消费金额、流量累计。
  • 类别型变量:性别、籍贯、所在城市===>一个用户对应一个结果,结果非数值
  • 多值型变量:兴趣爱好、穿衣风格、看过的电影===>一个用户对应多个结果
  • 文本型变量:购物评论

7.3.2 文本挖掘算法

对原始数据出现的用户标签集合、购物评价,做基于文本的特征提取,同时预处理、清洗。
用到的文本挖掘算法:LSA、PLSA、LDA。===>无监督学习

  • LSA(潜在语义分析)
    非概率主题模型
    与词向量有关
    主要用于文本的话题分析
    核心:通过矩阵分解,发现文档与词之间基于话题的语义关系。
  • PLSA(概率潜在语义分析)
    为克服LSA潜在缺点而提出,通过一个生成模型为LSA赋予概率意义上的解释。
    有个假设。
  • LDA(潜在狄利克雷分布)
    概率主题模型
    与词向量无关
    典型的词袋模型

7.3.3 神奇的嵌入表示

嵌入表示可以将高维系数特征向量转换成低维稠密特征向量来表示。

  • 词嵌入Word2Vec
    原理:Word2Vec根据上下文之间的关系训练词向量。
    有两种训练模式:Skip-Gram(跳字模型)和CBOW(连续词袋模型)。区别:输入层、输出层不同。
    Skip-Gram(跳字模型):输入一个词,预测上下文。
    CBOW(连续词袋模型):用一个词的上下文作为输入,预测这个词语本身。
  • 图嵌入DeepWalk
    包括三个部分:①根据某种序列,把商品关联起来(商品是点,关联是线),
    ②然后随机游走(random wal),生成商品序列,
    ③将序列输入到Skip-Gram进行词向量训练。
    【总结】我的理解
    是否可以理解为,Word2Vec只能做一层Skip-Gram词向量训练,而DeepWalk可以做多层词向量训练。或者说,Word2Vec只能基于一个词,而DeepWalk可以做多个词?
    总之它的作用大概就是去掉一些没有用的信息,理解为降维或者浓缩信息。

7.3.4 相似度计算方法

获取用户和商品的嵌入表示、文本的分词表示即各类稀疏表示后,就可以对这些向量表示进行相似度计算了。
基于相似度计算的特征提取方法有:欧氏距离、余弦相似度、Jaccard相似度等===>提取用户、商品、文本的相似度。
广泛应用场景:用户分层聚类、个性化推荐或广告投放。

  • 欧氏距离
  • 余弦相似度
    衡量样本之间的差异。夹角越小,余弦值越接近于1,反之则趋近于-1.
  • Jaccard相似度
    度量两个集合之间的差异大小。
    思想:共有元素越多越相似。

7.4 用户画像的应用

在这里插入图片描述

7.4.1 用户分析

产品上线之初对目标用户群已有一些定位,但上线之后情况与预期或历史或许存在偏差,需要对拉新、促活、留存、新增用户特征、核心用户属性做分析研究,提炼人群特征,然后不断优化产品性能、UI交互。
在这里插入图片描述【总结】
在用户生命周期的各个阶段,对用户行为属性、群体特点进行研究===>提升产品,压榨用户价值

7.4.2 精准营销

范畴内:推荐系统、广告投放
基于用户历史消费行为,为电商找到种子用户。

7.4.3 风控领域

风控领域的特点:
①解释性高,时效性
②业务关联度高
③负样本占比极少,是均衡学习算法的主战场之一。

【题外话】
金融信贷领域,客户的风险主要来自两方面:还款能力和还款意愿。
还款能力主要考察客户是否有足够的资金,并且按时还款,这就涉及到客户的工资日,工作、学历什么的。
还款意愿,一个是突发因素还不了了,比如失业了,另外一个就是本来贷款的时候就没想过要还,这就涉及到金融领域的反欺诈。
本来之前看了一本书是关于金融风控的,但是那个作者比较缺德的是,没有数据集,书里面只有代码,直接就导入了不知道什么数据集,这怎么搞啊。过分。

7.5 思考练习

见【机器学习】《机器学习算法竞赛实战》思考练习(更新中……)

以上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/792972.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ安装详细教程

(一)在Windows系统上安装Erlang的步骤如下: 打开Erlang的官方下载页面,选择适合你的Windows系统的版本进行下载。 下载完成后,双击运行下载的.exe文件,进入Erlang的安装向导。 在安装向导中,按…

vscode-keil一起用

安装插件 1、C/C Extension Pack 2、Keil Assistant 配置 重启生效!!! 下载安装 Mingw 下载链接: 添加环境变量: 注意确认!!! 报错 gccC:\迅雷下载\MinGW\MinGW\bin…

力扣爆刷第111天之CodeTop100五连刷41-45

力扣爆刷第111天之CodeTop100五连刷41-45 文章目录 力扣爆刷第111天之CodeTop100五连刷41-45一、232. 用栈实现队列二、4. 寻找两个正序数组的中位数三、31. 下一个排列四、69. x 的平方根五、8. 字符串转换整数 (atoi) 一、232. 用栈实现队列 题目链接:https://le…

注解(Annotation)

10.1 注解概述 10.1.1 什么是注解 注解(Annotation)是从JDK5.0开始引入,以“注解名”在代码中存在。例如: Override Deprecated SuppressWarnings(value”unchecked”) Annotation 可以像修饰符一样被使用,可用于修饰…

【八股】Spring MVC

什么是Spring MVC? Spring MVC 是 Spring 中的一个很重要的模块,是一个根据MVC架构推出的web开发框架,目的是为了简化Java的web开发 Spring MVC 执行流程? 现在一般都是前后端分离,根据接口去开发嘛,所以…

ChatGPT 之赋能提示词工程

原文:Chatgpt Empowers Your Prompt Engineering with AI Tools 译者:飞龙 协议:CC BY-NC-SA 4.0 介绍 在当今这个时代,设计和人工智能工具对于企业在不断发展的市场中蓬勃发展至关重要。ChatGPT 为探索一系列可能性提供了机会&am…

Visual Studio(VS) 搭建 QT 开发环境

Visual Studio(VS) 搭建 QT 开发环境 在当今的软件开发领域,Visual Studio(VS)是一款备受欢迎的集成开发环境(IDE),而 QT 则是一个强大的跨平台应用程序框架。将两者结合使用,可以为开发人员提供高效、便捷的开发体验。本文将详细介绍如何在 VS2022 中搭建 QT 开发环…

中兴天机A31 A31PRO 5G zte A2122H te A2022H 解锁BootLoader root权限 教程magisk,原厂刷机包

zte A2122H P768A02 zte A2022H P875A02 中兴天机A31 A31PRO 5G zte A2122H te A2022H 解锁BootLoader root教程magisk,原厂刷机包 感谢 某大神支持,已经解锁root 刷了面具; 中兴天机A31 A31PRO 5G zte A2122H te A2022H 解锁BootLoad…

2024.3.16力扣每日一题——矩阵中移动的最大次数

2024.3.16 题目来源我的题解方法一 深度优先遍历(超时)方法二 动态规划方法三 广度优先遍历 题目来源 力扣每日一题;题序:2684 我的题解 方法一 深度优先遍历(超时) 从第一列的每一行开始进行深度优先遍…

深入浅出 -- 系统架构之单体架构和微服务架构的区别

在软件开发中,架构设计是非常重要的一环。架构设计不仅决定了软件系统的性能、可维护性和扩展性,还直接关系到开发成本和项目进度。目前,主流的架构设计模式有两种,一种是单体架构,另一种是微服务架构。本文将详细介绍…

CVPR24_ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models

Abstract 尽管软提示微调在调整视觉语言模型以适应下游任务方面表现出色,但在处理分布偏移方面存在局限性,通过属性引导提示微调(Attribute-Guided,ArGue)来解决这个问题 Contributions 与直接在类名之前添加软提示…

【Linux】Ubuntu 磁盘管理

准备一个U盘或者SD卡(含读卡器),并将其格式化成 FAT32 格式,不要使用NTFS格式(这是微软的专利,大部分Linux系统不支持)和exFAT格式(有的Linux系统也不支持)。 如果Ubun…

递归算法讲解2

前情提要 上一篇递归算法讲解在这里 递归算法讲解(结合内存图) 没看过的小伙伴可以进去瞅一眼,谢谢! 递归算法的重要性 递归算法是非常重要的,如果想要进大厂,以递归算法为基础的动态规划是必考的&…

关闭PyCharm中因双击Shift而跳出的搜索框

有时候老是多次按到shift而跳出一个搜索框,本来在编写代码,怎么突然就开始搜索了,非常的烦人。 其实这个搜索框叫做“随处搜索”。 关闭步骤 1、打开PyCharm的设置。 2、在设置-高级设置中勾选-禁用双击修改键快捷键即可。

idea改vm参数后没法重启

背景 Idea2023修改了编译器compiler内存,maven的run time内存,idea安装目录下idea64.exe.vmoptions选项的jvm内存参数后导致idea启动时没有任何反应,也没有任何日志输出 idea2023没法重启 导致idea2023没法重启的操作步骤如下 1.修改idea的…

Higgsfield AI: 对飙Sora打造个性化视频新浪潮,重塑社交媒体内容创作

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

【leetcode面试经典150题】9.跳跃游戏(C++)

【leetcode面试经典150题】专栏系列将为准备暑期实习生以及秋招的同学们提高在面试时的经典面试算法题的思路和想法。本专栏将以一题多解和精简算法思路为主,题解使用C语言。(若有使用其他语言的同学也可了解题解思路,本质上语法内容一致&…

算法设计与分析实验报告python实现(排序算法、三壶谜题、交替放置的碟子、带锁的门)

一、 实验目的 1.加深学生对算法设计方法的基本思想、基本步骤、基本方法的理解与掌握; 2.提高学生利用课堂所学知识解决实际问题的能力; 3.提高学生综合应用所学知识解决实际问题的能力。 二、实验任务 1、排序算法…

Oracle常规操作

1、查看用户和密码 select username,password from dba_users; --修改用户和密码 alter user system identified by manager; alter user system identified by values 2D594E86F93B17A1; --解锁用户 alter user system account unlock; -- 用SYSDBA身份进入数据库,然…

Github 2024-04-04 开源项目日报 Top10

根据Github Trendings的统计,今日(2024-04-04统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目5TypeScript项目2Go项目1Jupyter Notebook项目1Java项目1C++项目1非开发语言项目1Vue项目1编程面试大学:成为软件工程师的全面学习计…