大数据项目(四)————用户画像

原文地址:https://blog.csdn.net/Jorocco/article/details/81428996

1、用户画像概述
用来勾画用户(用户背景、特征、性格标签、行为场景等)和联系用户需求与产品设计的,旨在通过从海量用户行为数据中炼银挖金,尽可能全面细致的抽出一个用户的信息全貌,从而帮助解决如何把数据转为商业价值的问题。

1.1 用户画像数据来源

这里写图片描述

用户画像数据来源中连个最终要的数据就是用户属性以及物品属性,有了这两个,我们就可以从用户-用户、用户-电影、电影-电影三方面展开相应的相似度计算从而实施相应的推荐与应用。

1.1.1 用户属性

用户属性用来描述一个用户的个性,从而用于与其他用户加以区分,为实现精准及个性化的推荐,系统通常对每个用户都有一个用户属性的建模,其中包括用户的基本信息,如用户的性别、年龄、年收入、兴趣爱好、活跃时间、所在城市等。如果计算得到用户A和用户B的属性相似度较高,那么系统就会认为用户A和用户B是相似用户,在推荐引擎中,基于邻居用户群的观影喜好推荐给当前用于一些电影。同时,用户属性还可以用于推荐结果进行过滤和排序,从而优化推荐结果。

1.1.2 物品属性

物品属性是用来描述一个物品的特点,比如观影,这个影片就会有相应的属性标签,比如动作片、爱情片、导演、主演、上映地区等。通过对影片属性进行相应的标签化,为后面的推荐提供数据支撑。

2、用户画像建模
用户画像建模就是用户信息的标签化,以便为后面的推荐算法提供更精准的语义信息。它的核心是对用户潜在的意图和兴趣进行表示和存储,根据用户的基础信息、视频信息、访问信息、行为偏好等归纳出可读取,可计算的用户模型。用户画像通常包含定性画像和定量画像两个部分,其中定性画像主要包括用户的基本特征、行为刻画、兴趣模型和视频表征等,定量画像主要包括用户基础变量、兴趣偏好等可量化的数据特征。所谓的定量画像就是通过某种可量化的数据特征进行画像,比如某个东西的购买量,点击量等。
2.1 用户定量画像
定量画像建模过程中需要重点考虑的是用户画像的颗粒度,即用户画像应该细化到何种程度,颗粒度越小,用户画像越细,也就更加有利于提高推荐系统的准确性。然而,也不是越细越好,一方面提高了用户画像建模成本,同时也会导致用户画像的使用性降低,如何把握好用户画像的颗粒度可以采取问卷调查的方法了解用户的使用场景、关注内容等。可以通过表单收集捕捉用户行为。
2.2 用户定性画像
标签化是用户定性画像的核心。标签化之后,首先,计算机可以自动完成分类统计功能,例如,可以统计喜欢科幻类型电影的用户有多少,还可以进一步统计喜欢观看科幻类型电影的人群中男女比例是多少,其次,计算机也可以根据这些标签进行深度挖掘,例如,可以利用关联规则计算用户年龄和喜欢电影类型的关系,还可以利用聚类算法分析喜欢科类型电影用户的年龄段分布情况。将标签信息与用户的视频浏览、点播行为数据相结合就可以进一步预测用户的喜好,这对于搜索引擎、广告投放等应用领域都有显著的意义。

一个产品通常会设计4~6个标签代表所有的用户群体。
这里写图片描述
这里写图片描述

基于知识的用户定性画像分析
基于知识的用户定性画像分析其核心思想是利用本体对用户画像中的标签进行表示、验证、推理和解释等,具体来说包括用户和视频的标签以及它们之间的关系进行形式化的表述,从语义层面描述视频、用户及其兴趣特征,主要以观众和视频的相关知识作为画像建模的核心。

本体侧重对特定工程领域中的知识进行建模,提供专业领域中概念的词汇表以及概念间的关系,是在语义层次上对信息进行的形式化描述。主流的本体开发工具是Protege。本体描述语言OWL DL。

3、群体用户画像分析
群体用户画像分析是指用户间的关联分析。
群体用户画像分析的流程主要包括:
1、用户画像的获取
2、用户画像相似度计算,根据不同的用户画像计算相互间的相似度,是区分用户群体的重要指标,也是展开用户画像聚类的前提条件。
3、用户画像聚类,根据用户画像间的相似度,将相似的用户画像聚为一类。
4、群体用户画像生成,针对不同类别的用户分别建立有代表性的典型用户画像。
通过群体用户画像分析可以获取需求相近的用户群。
3.1.1 定量相似度计算
这里写图片描述
这里写图片描述
这里写图片描述
3.1.2 定性相似度计算
这里写图片描述
这里写图片描述
4、用户画像更新触发条件
这里写图片描述
更新机制
这里写图片描述
5、推荐概述
常见的推荐算法根据使用数据源的不同可将其大致分为三类:分别是协同过滤的推荐方法、基于内容的推荐方法和基于知识的推荐方法以及对这三类算法进行不同程度融合之后出现的混合推荐算法。
5.1 主流推荐方法的分类
5.1.1 协同过滤的推荐方法
这里写图片描述
这里写图片描述
5.1.2 基于内容的推荐方法
这里写图片描述
这里写图片描述
基于内容的推荐方法和协同过滤方法中基于视频之间的协作的最大区别是它不需要任何用户数据,而基于视频之间的协作它需要维护一个视频间相似度矩阵,然后将和该用户评过高分相似的视频推荐给该用户,它的主要数据对象对象是用户和视频,而基于内容的推荐方法的数据对象就只是某一个用户的历史视频。
5.1.3 基于知识的推荐方法
这里写图片描述
5.1.4 混合推荐方法
这里写图片描述
5.2 推荐系统的评测方法
这里写图片描述
6、协同过滤推荐方法
6.1 概述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
6.2 关系矩阵及矩阵计算
这里写图片描述
6.2.1 U-U矩阵
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
6.2.2 V-V矩阵
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
6.2.3 U-V矩阵
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
6.3 基于记忆的协同过滤算法
这里写图片描述
这里写图片描述
6.3.1 基于用户的协同过滤算法
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
6.3.2 基于物品的协同过滤算法
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
6.4 基于模型的协同过滤算法
这里写图片描述
这里写图片描述
6.4.1 基于隐因子模型的推荐算法
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
6.4.2 基于朴素贝叶斯分类的推荐算法
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
7、基于内容的推荐方法
这里写图片描述
这里写图片描述
这里写图片描述
7.2 视频推荐中的特征向量
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
7.3 基础CB推荐算法
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
7.4 基于TF-IDF的CB推荐算法
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
7.5 基于KNN的CB推荐算法
这里写图片描述
这里写图片描述
这里写图片描述
7.6 基于决策树的CB推荐算法
这里写图片描述
这里写图片描述
7.7 基于线性分类的CB推荐算法
这里写图片描述
这里写图片描述
这里写图片描述
7.8 基于朴素贝叶斯的CB推荐算法
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
8、Mahout推荐引擎介绍
这里写图片描述
8.1 Item-based算法
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
8.2 矩阵分解
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
8.3 ALS算法
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
8.4 快速实战
这里写图片描述
这里写图片描述
8.4.1 日志数据
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
8.4.5 运行环境
建立一个maven工程添加如下依赖:
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
8.4.6 基于Mahout Item-based算法实践
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
8.4.7 基于Mahout ALS算法实践
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480318.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最强阿里面试126题:数据结构+并发编程+Redis+设计模式+微服务

BAT技术面试范围 数据结构与算法:最常见的各种排序,最好能手写 Java高级:JVM内存结构、垃圾回收器、回收算法、GC、并发编程相关(多线程、线程池等)、NIO/BIO、各种集合类的比较优劣势(底层数据结构也要…

AdaX:一个比Adam更优秀,带”长期记忆“的优化器

关注小夕并星标,解锁自然语言处理搜索、推荐与算法岗求职秘籍文 | 苏剑林(追一科技,人称苏神)美 | 人美心细小谨思密达前言这篇文章简单介绍一个叫做AdaX的优化器,来自《AdaX: Adaptive Gradient Descent with Exponen…

金融情报挖掘:面向公开文本的期货事件聚合与传导因素分析

金融情报挖掘是情报领域的一个重要分支,通过对金融领域信息进行提取和分析,发现关联线索,对传导关联进行建模,能够挖掘出市场变动的规律,最终辅助决策。 例如,国内外资本市场,衍生品市场热点不断…

论文浅尝 | 知识图谱的单样本关系学习

链接:http://cn.arxiv.org/pdf/1808.09040动机如今的知识图谱规模很大但是完成度不高,long-tail关系在知识图谱中很常见,之前致力于完善知识图谱的方法对每个关系都需要大量的训练样本(三元组),而新加入的关…

POJ 1200 Crazy Search 查找有多少种不同的子串(hash)

文章目录1.采用map解题2.采用hash查找题目链接: http://poj.org/problem?id1200题目大意:给定子串长度,字符中不同字符数量,以及一个字符串,求不同的子串数量。1.采用map解题 把子串插入map,map自动去重&…

金融行业如何用大数据构建精准用户画像?

原文地址:https://www.jianshu.com/p/6e0a0ca5948e 1. 什么是用户画像?2. 用户画像的四阶段用户画像的焦点工作就是为用户打“标签”,而一个标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、用户偏好等,最…

最全BAT前端开发面试80题:算法+html+js+css!含答案大赠送!

最全前端开发面试题目:包含算法网络css面试jsh5面试题目,尾部有最全BAT前端面试经典77题和答案,想要的就快来领走吧~(领取方式见文末) 一、前端算法面试 1、基本排序的方式 冒泡、快排、桶排、堆排序、归并排序、插入…

超一流 | 从XLNet的多流机制看最新预训练模型的研究进展

关注小夕并星标,解锁自然语言处理搜索、推荐与算法岗求职秘籍文 | 老饕(某厂研究员,祖传调参)美 | 人美心细小谨思密达导读作为 NLP 近两年来的当红炸子鸡,以 ELMo/BERT 为代表的语言预训练技术相信大家已经很熟悉了。…

论文浅尝 | 神经网络与非神经网络简单知识问答方法的强基线分析

来源:NAACL 2018链接:http://aclweb.org/anthology/N18-2047本文关注任务为面向简单问题的知识库问答(仅用KB中的一个事实就能回答问题)。作者将任务划分为实体检测,实体链接,关系预测与证据整合&#xff0…

干货 | 搞定用户画像只需5个步骤

【转】http://www.sohu.com/a/115611583_445326有一句话是,千万人撩你,不如一人懂你,这句话在互联网圈可以说成是,真正的了解用户,才能得到用户,所以,用户画像的重要性不言而喻。什么是用户画像…

领域情报搜索实践:真实场景下的问答实施策略与风险分析

知识搜索,对于一个企业而言,目前无论是在对内管理还是对外服务的业务上,都有着大量的需求,并表现出急迫性的特征。 例如,很多企业都积累了大量的企业知识资产,并且规模以每年200%的速度增长,其…

数据结构--二叉树 Binary Tree

文章目录1.概念2.存储方式2.1 链式存储(二叉树代码大部分是链式实现的)2.2 顺序存储(基于数组)3.二叉树的遍历3.1 基于链表的二叉树实现代码3.2 基于数组的二叉树实现代码3.3 非递归法 二叉树遍历1.概念 二叉树,每个节…

算法工程师思维导图—数据结构与算法

卖萌屋的妹子们(划掉)作者团整理的算法工程师思维导图,求职/自我提升/查漏补缺神器。该手册一共分为数据结构与算法、数学基础、统计机器学习和深度学习四个部分。点击这里查看具体使用指南。该手册有两种获取方式:公众号后台回复…

通过预训练提升语言理解

官方地址:https://blog.openai.com/language-unsupervised/文章:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf代码:https://github.com/openai/finetune-tran…

最全Java架构师130面试题:微服务、高并发、大数据、缓存等中间件

一、数据结构与算法基础 说一下几种常见的排序算法和分别的复杂度。 用Java写一个冒泡排序算法 描述一下链式存储结构。 如何遍历一棵二叉树? 倒排一个LinkedList。 用Java写一个递归遍历目录下面的所有文件。 二、Java基础 接口与抽象类的区别&#xf…

智能投顾全面解读

智能投顾全面解读 <p>传统投顾一直是与理财产品的销售紧密结合在一起的。投顾即销售&#xff0c;在国内理财界也是约定俗成的现实。<br></p><p>传统投资顾问即证券投资顾问业务遵循《证券投资顾问业务暂行规定》&#xff0c;开展证券投资顾问业务的机构…

数据结构--二叉查找树 Binary Search Tree

文章目录1.二叉查找树概念2.二叉查找树操作2.1 查找2.2 插入2.3 删除2.4 其他3. 支持重复数据的二叉查找树4 有散列表了&#xff0c;还需要二叉查找树&#xff1f;5 代码实现1.二叉查找树概念 二叉查找树要求&#xff0c;在树中的任意一个节点&#xff0c;其左子树中的每个节点…

最新蚂蚁金服Java面试题:Docker+秒杀设计+RocketMQ+亿级数据设计

蚂蚁金服一面&#xff1a; 1 自我介绍 2 讲一下ArrayList和linkedlist的区别&#xff0c;ArrayList的扩容方式&#xff0c;扩容时机。 3 hashmap的实现&#xff0c;以及hashmap扩容底层实现。 4 NIO了解么&#xff0c;讲一下和BIO的区别&#xff0c;AIO呢。阻塞&#xff0c;…

论文浅尝 | 常识用于回答生成式多跳问题

链接&#xff1a;https://arxiv.org/pdf/1809.06309.pdfAnsweringTasks多跳问题一般需要模型可以推理、聚合、同步上下文中不同的信息。就需要理解那些人类通过背景知识可以理解的限制关系。本文提出了一个很强的baseline模型&#xff08;multi-attention pointer-generator d…

中国智能投顾行业

原文地址&#xff1a; 中国智能投顾行业 一、概要 财富管理与新兴金融科技的结合&#xff0c;使得财富管理行业正在进入新的阶段——智能财富管理。近几年全球出现的智能投顾模式已然成为智能财富管理的一大热点。智能投顾&#xff0c;简而言之&#xff0c;就是基于投资者的投…