【机器学习】《机器学习算法竞赛实战》第7章用户画像

文章目录

  • 第7章 用户画像
    • 7.1 什么是用户画像
    • 7.2 标签系统
      • 7.2.1 标签分类方式
      • 7.2.2 多渠道获取标签
      • 7.2.3 标签体系框架
    • 7.3 用户画像数据特征
      • 7.3.1 常见的数据形式
      • 7.3.2 文本挖掘算法
      • 7.3.3 神奇的嵌入表示
      • 7.3.4 相似度计算方法
    • 7.4 用户画像的应用
      • 7.4.1 用户分析
      • 7.4.2 精准营销
      • 7.4.3 风控领域
    • 7.5 思考练习

这本书写的挺好,干货满满。除了课后题,有必要对内容做一下总结。
与文章框架保持一致,基本在抄书……学渣的我……

第7章 用户画像

7.1 什么是用户画像

机器学习中提到的用户画像,通常是基于给定的数据对用户属性、行为进行描述,然后提取个性化指标,再以此分析可能存在的群体共性,并落地应用到各种业务场景中。
在这里插入图片描述

7.2 标签系统

用户画像核心:“打标签”,即标签化用户的行为特征。
企业通过标签,分析用户(社会属性、生活习惯、消费行为)===>商业应用

7.2.1 标签分类方式

直接拍了张照片,因为我觉得我画的不如人家的好看,而且还浪费时间。凑合看下,了解即可:
在这里插入图片描述

7.2.2 多渠道获取标签

获取标签的渠道主要有三种:事实类标签、规则类标签、模型类标签。

  • 事实类标签
    来源于:①原始数据:性别、年龄、会员等级。
    ②统计数据:用户行为次数、消费总额。
  • 规则类标签
    依据是设置的规则。
    举例:地域所属、家庭类型、年龄层
    比如,所在地在山东,业务规则可以划分为“华北”,也可以是”东部“,也可以是“北方”。根据具体的业务规则会有不同的结 果标签,这就是规则类标签。
    规则类标签用到的主要技能是数理统计类知识:基础统计、数值分层、概率分布、均值分析、方差分析等。
    在这里插入图片描述
  • 模型类标签
    模型类标签是经过机器学习和深度学习等模型处理后,二次加工生成的洞察性标签。
    举例:预测用户状态、预测用户信用分、划分兴趣人群和对评论文本进行分类等。 在这里插入图片描述
    【总结】我的理解
    规则类标签,是基于用户历史行为,对用户的行为、偏好、价值做出判断,可以看作依然属于历史范畴。
    模型类标签,主要是对用户进行预测,或者文本分类。可以认为是对未来、或者深层次的信息进行加工。===>两个方向:未来、深度。

7.2.3 标签体系框架

包含四个部分:数据源、标签管理、标签层级分类、标签服务赋能。
在这里插入图片描述

  • 数据源:离线、实时、第三方
  • 标签管理
  • 标签层级分类:上面提到的三种标签,事实类、规则类、模型类。
  • 标签服务赋能:画像分析、选人选品、个性化推荐、风控建模、精准营销===>商业落地

7.3 用户画像数据特征

用户画像的数据来源主要有三种:用户数据、商品数据、渠道数据。
可以通过统计、编码、降维提取有效特征===>构造标签

7.3.1 常见的数据形式

四种:数值型变量、类别型变量、多值型变量、文本型变量。

  • 数值型变量:年龄、身高、体重、消费金额、流量累计。
  • 类别型变量:性别、籍贯、所在城市===>一个用户对应一个结果,结果非数值
  • 多值型变量:兴趣爱好、穿衣风格、看过的电影===>一个用户对应多个结果
  • 文本型变量:购物评论

7.3.2 文本挖掘算法

对原始数据出现的用户标签集合、购物评价,做基于文本的特征提取,同时预处理、清洗。
用到的文本挖掘算法:LSA、PLSA、LDA。===>无监督学习

  • LSA(潜在语义分析)
    非概率主题模型
    与词向量有关
    主要用于文本的话题分析
    核心:通过矩阵分解,发现文档与词之间基于话题的语义关系。
  • PLSA(概率潜在语义分析)
    为克服LSA潜在缺点而提出,通过一个生成模型为LSA赋予概率意义上的解释。
    有个假设。
  • LDA(潜在狄利克雷分布)
    概率主题模型
    与词向量无关
    典型的词袋模型

7.3.3 神奇的嵌入表示

嵌入表示可以将高维系数特征向量转换成低维稠密特征向量来表示。

  • 词嵌入Word2Vec
    原理:Word2Vec根据上下文之间的关系训练词向量。
    有两种训练模式:Skip-Gram(跳字模型)和CBOW(连续词袋模型)。区别:输入层、输出层不同。
    Skip-Gram(跳字模型):输入一个词,预测上下文。
    CBOW(连续词袋模型):用一个词的上下文作为输入,预测这个词语本身。
  • 图嵌入DeepWalk
    包括三个部分:①根据某种序列,把商品关联起来(商品是点,关联是线),
    ②然后随机游走(random wal),生成商品序列,
    ③将序列输入到Skip-Gram进行词向量训练。
    【总结】我的理解
    是否可以理解为,Word2Vec只能做一层Skip-Gram词向量训练,而DeepWalk可以做多层词向量训练。或者说,Word2Vec只能基于一个词,而DeepWalk可以做多个词?
    总之它的作用大概就是去掉一些没有用的信息,理解为降维或者浓缩信息。

7.3.4 相似度计算方法

获取用户和商品的嵌入表示、文本的分词表示即各类稀疏表示后,就可以对这些向量表示进行相似度计算了。
基于相似度计算的特征提取方法有:欧氏距离、余弦相似度、Jaccard相似度等===>提取用户、商品、文本的相似度。
广泛应用场景:用户分层聚类、个性化推荐或广告投放。

  • 欧氏距离
  • 余弦相似度
    衡量样本之间的差异。夹角越小,余弦值越接近于1,反之则趋近于-1.
  • Jaccard相似度
    度量两个集合之间的差异大小。
    思想:共有元素越多越相似。

7.4 用户画像的应用

在这里插入图片描述

7.4.1 用户分析

产品上线之初对目标用户群已有一些定位,但上线之后情况与预期或历史或许存在偏差,需要对拉新、促活、留存、新增用户特征、核心用户属性做分析研究,提炼人群特征,然后不断优化产品性能、UI交互。
在这里插入图片描述【总结】
在用户生命周期的各个阶段,对用户行为属性、群体特点进行研究===>提升产品,压榨用户价值

7.4.2 精准营销

范畴内:推荐系统、广告投放
基于用户历史消费行为,为电商找到种子用户。

7.4.3 风控领域

风控领域的特点:
①解释性高,时效性
②业务关联度高
③负样本占比极少,是均衡学习算法的主战场之一。

【题外话】
金融信贷领域,客户的风险主要来自两方面:还款能力和还款意愿。
还款能力主要考察客户是否有足够的资金,并且按时还款,这就涉及到客户的工资日,工作、学历什么的。
还款意愿,一个是突发因素还不了了,比如失业了,另外一个就是本来贷款的时候就没想过要还,这就涉及到金融领域的反欺诈。
本来之前看了一本书是关于金融风控的,但是那个作者比较缺德的是,没有数据集,书里面只有代码,直接就导入了不知道什么数据集,这怎么搞啊。过分。

7.5 思考练习

见【机器学习】《机器学习算法竞赛实战》思考练习(更新中……)

以上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/792972.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vscode-keil一起用

安装插件 1、C/C Extension Pack 2、Keil Assistant 配置 重启生效!!! 下载安装 Mingw 下载链接: 添加环境变量: 注意确认!!! 报错 gccC:\迅雷下载\MinGW\MinGW\bin…

力扣爆刷第111天之CodeTop100五连刷41-45

力扣爆刷第111天之CodeTop100五连刷41-45 文章目录 力扣爆刷第111天之CodeTop100五连刷41-45一、232. 用栈实现队列二、4. 寻找两个正序数组的中位数三、31. 下一个排列四、69. x 的平方根五、8. 字符串转换整数 (atoi) 一、232. 用栈实现队列 题目链接:https://le…

注解(Annotation)

10.1 注解概述 10.1.1 什么是注解 注解(Annotation)是从JDK5.0开始引入,以“注解名”在代码中存在。例如: Override Deprecated SuppressWarnings(value”unchecked”) Annotation 可以像修饰符一样被使用,可用于修饰…

ChatGPT 之赋能提示词工程

原文:Chatgpt Empowers Your Prompt Engineering with AI Tools 译者:飞龙 协议:CC BY-NC-SA 4.0 介绍 在当今这个时代,设计和人工智能工具对于企业在不断发展的市场中蓬勃发展至关重要。ChatGPT 为探索一系列可能性提供了机会&am…

中兴天机A31 A31PRO 5G zte A2122H te A2022H 解锁BootLoader root权限 教程magisk,原厂刷机包

zte A2122H P768A02 zte A2022H P875A02 中兴天机A31 A31PRO 5G zte A2122H te A2022H 解锁BootLoader root教程magisk,原厂刷机包 感谢 某大神支持,已经解锁root 刷了面具; 中兴天机A31 A31PRO 5G zte A2122H te A2022H 解锁BootLoad…

深入浅出 -- 系统架构之单体架构和微服务架构的区别

在软件开发中,架构设计是非常重要的一环。架构设计不仅决定了软件系统的性能、可维护性和扩展性,还直接关系到开发成本和项目进度。目前,主流的架构设计模式有两种,一种是单体架构,另一种是微服务架构。本文将详细介绍…

CVPR24_ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models

Abstract 尽管软提示微调在调整视觉语言模型以适应下游任务方面表现出色,但在处理分布偏移方面存在局限性,通过属性引导提示微调(Attribute-Guided,ArGue)来解决这个问题 Contributions 与直接在类名之前添加软提示…

【Linux】Ubuntu 磁盘管理

准备一个U盘或者SD卡(含读卡器),并将其格式化成 FAT32 格式,不要使用NTFS格式(这是微软的专利,大部分Linux系统不支持)和exFAT格式(有的Linux系统也不支持)。 如果Ubun…

递归算法讲解2

前情提要 上一篇递归算法讲解在这里 递归算法讲解(结合内存图) 没看过的小伙伴可以进去瞅一眼,谢谢! 递归算法的重要性 递归算法是非常重要的,如果想要进大厂,以递归算法为基础的动态规划是必考的&…

关闭PyCharm中因双击Shift而跳出的搜索框

有时候老是多次按到shift而跳出一个搜索框,本来在编写代码,怎么突然就开始搜索了,非常的烦人。 其实这个搜索框叫做“随处搜索”。 关闭步骤 1、打开PyCharm的设置。 2、在设置-高级设置中勾选-禁用双击修改键快捷键即可。

idea改vm参数后没法重启

背景 Idea2023修改了编译器compiler内存,maven的run time内存,idea安装目录下idea64.exe.vmoptions选项的jvm内存参数后导致idea启动时没有任何反应,也没有任何日志输出 idea2023没法重启 导致idea2023没法重启的操作步骤如下 1.修改idea的…

Higgsfield AI: 对飙Sora打造个性化视频新浪潮,重塑社交媒体内容创作

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

算法设计与分析实验报告python实现(排序算法、三壶谜题、交替放置的碟子、带锁的门)

一、 实验目的 1.加深学生对算法设计方法的基本思想、基本步骤、基本方法的理解与掌握; 2.提高学生利用课堂所学知识解决实际问题的能力; 3.提高学生综合应用所学知识解决实际问题的能力。 二、实验任务 1、排序算法…

Github 2024-04-04 开源项目日报 Top10

根据Github Trendings的统计,今日(2024-04-04统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目5TypeScript项目2Go项目1Jupyter Notebook项目1Java项目1C++项目1非开发语言项目1Vue项目1编程面试大学:成为软件工程师的全面学习计…

Spark-Scala语言实战(12)

在之前的文章中,我们学习了如何在spark中使用键值对中的join,rightOuterJoin,leftOuterJoin三种方法。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢…

攻防世界 xff_referer 题目解析

xff_referer 一:了解xxf和Referer X-Forwarded-For:简称XFF头,它代表客户端,也就是HTTP的请求端真实的IP,只有在通过了HTTP 代理或者负载均衡服务器时才会添加该项。 一般的客户端发送HTTP请求没有X-Forwarded-For头的&#xff0…

宁波ISO27001认证:信息安全管理的黄金标准

😃宁波ISO27001认证:🤖信息安全管理的💡黄金标准 随着信息技术💻的迅猛发展,信息安全🔏问题日益凸显,成为企业🏬稳定运营和持续发展的📊关键因素。在这样&am…

Finite Element Procedures K.J.Bathe 【教材pdf+部分源码】|有限元经典教材 | 有限元编程

专栏导读 作者简介:工学博士,高级工程师,专注于工业软件算法研究本文已收录于专栏:《有限元编程从入门到精通》本专栏旨在提供 1.以案例的形式讲解各类有限元问题的程序实现,并提供所有案例完整源码;2.单元…

Paddle实现人脸对比

人脸对比 人脸对比,顾名思义,就是对比两个人脸的相似度。本文将用Paddle实现这一功能。 PS:作者肝了整整3天才稍微搞明白实现方法 数据集准备 这里使用百度AI Studio的开源数据集: 人脸数据_数据集-飞桨AI Studio星河社区 (b…

[C#]OpenCvSharp使用HoughCircles霍夫圆检测算法找出圆位置并计数

【效果展示】 原图: 找出位置: 【测试环境】 vs2019,netframework4.7.2,opencvsharp4.8.0 【函数用法】 cv2提供了一种圆检测的方法:HoughCircles。该函数的返回结果与参数设置有很大的关系。 检测的图像时9枚钱币,分别使用了…