推荐系统三十六式学习笔记:02|个性化推荐系统有哪些绕不开的经典问题?

目录

  • 推荐系统的问题模式
    • 评分预测
    • 行为预测
  • 几个常见顽疾
    • 1、冷启动问题
    • 2、探索与利用问题
    • 安全问题
  • 总结

推荐系统的问题模式

推荐系统的使命是为用户和物品建立连接,建立的方式是提前找出哪些隐藏的连接呈现给用户,这是一个预测问题;所以推荐系统的预测问题模式,从达成的连接目标角度区分,有两大类:
1、评分预测
2、行为预测

因为评分和行为是用户对推荐结果的两类反馈,我们给他们推荐了一个或多个物品,目的是希望他们“消费”,这种消费反应在用户行为上,比如“点击查看”,信息咨询类还有“阅读完成”,视频音乐类的有“播放完成”,电商类的“加入购物车”等。

整个行为呈现一个漏斗形状,从曝光到最终消费完成。最后在用户完成消费后,产品方一般还希望他们告诉自己消费的体验,这时候就有评分了;所以不同推荐系统的任务也不同,有的直接去预测用户如果消费完之后会给多少评分,更多的推荐系统则会分层,致力于预测用户的行为。

评分预测

评分预测相关算法模型研究的兴盛,最大的助攻是Netflix(奈飞)举办的推荐算法大赛。

评分预测要干的事是这样的:假如用户消费完一个物品之后会给出一个打分,比如通常是1-5分,或者有的网站用星星的颗数表示。

我们能不能提前预测一个用户对每个物品会打多少分,找出那些他可能会打高分,但是还没消费的物品,然后悄无声息但恰到好处的推荐到用户面前。

一个朴素的思想是:建立一个模型,这个模型会给用户历史上打过分的物品去预测分数。

预测分数和实际分数之间会有误差,我们根据这个误差去调整参数模型,让这个误差越来越小,最后得到的这个模型理论上就可以了,事实上,这其实就是机器学习里面的回归问题。

评判标准就是RMSE,即均方根误差。

在这里插入图片描述
备注:n为样本数, y t y_t yt为用户真实打分值, y ^ t \hat{y}_t y^t为预测值

由于误差有正数也有负数,而我们只关心绝对值的大小,所以我们再给误差求平方,这就是名字中的方的来源,再对所有样本的误差平方求平均值,这就是名字中均的来源,因为我们对误差都平方了,所以最后再对均值开方根,这就是名字中的根的来源。这个过程就是求均方根误差。

评分预测问题常用于各种点评类产品(如:书影音的点评),但评分类推荐存在一下问题:
1、数据不易收集,用户给出评分意味着他已经完成前面所有的漏斗环节。
2、数据质量不能保证,伪造评分数据门槛低,同时真实的评分数据又处于转化漏斗最后一环,门槛高;
3、评分的分布不稳定,整体评分在不同时期会差别很大,个人评分在不同时期标准不同,人和人之间的标准差别很大。

用户的评分数据,我们又称为显示反馈,与之相对的还有隐式反馈,通常就是各类用户行为,也就是另一类推荐系统问题:行为预测;

行为预测

用户每天在不同的APP或者网站之间活动,就会有各种行为数据产生,从登录刷新,到购买收藏,都是用户行为,这类数据是用户在不自觉的情况下发生的,数据量显然比显示反馈多的多;

用户的行为通常呈现漏斗关系,用户最终达成的行为可能不是那么容易得到的,比如完整消费一个长内容,通常是登录刷新开始,逐层经历漏斗消失;

而推荐系统肩负的使用自然是达成用户行为,也就是连接越多越好,这也是这一类推荐系统问题的关注点。
推荐系统预测行为方式有很多,常见的有两种:直接预测行为本身发生的概率,和预测物品的相对排序。前者有一个更广为流传的名称叫做CTR预估.。这里的C原本是点击行为click,但这个解决问题的模式可以引申到其他用户行为,如收藏,购买。

CTR意思是click through rate,即点击率。把每一个推荐给用户的物品按照是否会点击二分类,构建分类模型,预估其中一种分类的概率,就是CTR预估。

行为预测就是利用隐式反馈数据预测隐式反馈的发生概率,因此,各家互联网产品高度重视隐式反馈,原因于:
1、数据比显示反馈更加稠密。
2、隐式反馈更能代表用户的真实想法,俗话说行为是骗不了人的。
3、隐式反馈常常和模型的目标函数关联更密切。因此也更容易在abtest中和测试指标挂钩。

行为预测解决的是推荐系统80%问题,评分预测解决的是最后那20%的问题。

几个常见顽疾

推荐系统的隐藏顽疾是:1、冷启动问题 2、探索与利用问题 3、安全问题。

1、冷启动问题

冷启动问题广泛存在于互联网产品中,但我们这里仅仅限于推荐系统的冷启动。 新用户或者不活跃用户,以及新物品或展示次数较少的物品,这些用户和物品,由于缺乏相关数据,因此就是冷启动问题的关注对象。

冷启动问题,通常的解决方式就是给它加热:想办法引入数据,想办法从已有的数据中主动学习。我们会在后面的文章中详细讨论冷启动的问题。

2、探索与利用问题

探索与利用,又叫EE问题。假如我们已经知道了用户的喜好,一般有三种对待方式:

1、全部给它推荐他目前肯定感兴趣的物品;
2、无视它的兴趣,按照其他逻辑给它推荐,如编辑推荐,随机推荐,按照时间先后推荐等等;
3、大部分给他推荐感兴趣的,小部分试探新的兴趣。

显然第三种更持久,那么如何平衡这里的大部分和小部分呢?这就是Exploit和Explore问题的核心了。Exploit意为开采,对用户身上已经探明的兴趣加以利用,Explore意为探索,探明用户身上还不知道的兴趣。我们会在后面的文章中详细的讨论EE问题。

安全问题

如果你正在一款流量非常大的产品上构建推荐系统,那么一定要考虑推荐系统的攻击问题。推荐系统被攻击的影响大致有以下几个:

1、给出不靠谱的推荐结果,影响用户体验并最终影响品牌形象。
2、收集了不靠谱的脏数据,这个影响会一直持续留存在产品中,很难完全消除;
3、损失了产品的商业利益,这个是直接的经济损失。

所以推荐系统的安全问题:有哪些攻击手段,以及对应的防御办法,我们会在后面的文章中予以讨论。

总结

今天,我从两个角度总结了推荐系统中的常见问题。
第一个角度是模型的角度,将推荐系统的模型分成了预测评分和预测行为,另一个角度是看推荐系统重一些永恒存在但潜在的问题,包括冷启动、EE问题、安全问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/19922.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IMU状态预积分代码实现 —— IMU状态预积分类

IMU状态预积分代码实现 —— IMU状态预积分类 实现IMU状态预积分类 实现IMU状态预积分类 首先,实现预积分自身的结构。一个预积分类应该存储一下数据: 预积分的观测量 △ R ~ i j , △ v ~ i j , △ p ~ i j \bigtriangleup \tilde{R} _{ij},\bigtrian…

2020 6.s081——Lab2:system calls

左岸的一座白色环形阶梯 浪人正在用和弦练习忧郁 晨曦下的少女听着吉他旋律 在许愿池边巴洛克式的叹息 ——许愿池的希腊少女 完整代码见:SnowLegend-star/6.s081 at syscall (github.com) System call tracing (moderate) 这个实验要求我们跟踪系统调用。 感觉实…

平衡二叉树的应用举例

AVL 是一种自平衡二叉搜索树,其中任何节点的左右子树的高度之差不能超过 1。 AVL树的特点: 1、它遵循二叉搜索树的一般属性。 2、树的每个子树都是平衡的,即左右子树的高度之差最多为1。 3、当插入新节点时,树会自我平衡。因此…

R语言绘图 --- 饼状图(Biorplot 开发日志 --- 2)

「写在前面」 在科研数据分析中我们会重复地绘制一些图形,如果代码管理不当经常就会忘记之前绘图的代码。于是我计划开发一个 R 包(Biorplot),用来管理自己 R 语言绘图的代码。本系列文章用于记录 Biorplot 包开发日志。 相关链接…

JDBC入门基础

目录 JDBC的基本概念 快速入门(基本步骤) 创建数据库 注册驱动(可以省略不写) 获取连接对象 获取执行SQL语句的对象 编写SQL语句,并执行,以及接收返回的结果 处理结果,遍历结果集和 释放资源&…

数据流通与智能家居的未来

在科技飞速发展的今天,智能家居逐渐融入我们的日常生活,改变了传统的居住方式。智能生态网络(IEN)作为智能家居的核心,集成了家庭内的各种智能设备和传感器,实现了对家庭环境的智能化管理。而数据要素流通则…

ESP32入门:1、VSCode+PlatformIO环境搭建(离线快速安装)

文章目录 背景安装vscode安装配置中文 安装Platform IO安装PIO 新建ESP32工程参考 背景 对于刚接触单片机的同学,使用vscodeplatformIO来学习ESP32是最方便快捷的,比IDF框架简单,且比arduino文件管理性能更好。但是platformIO安装较为麻烦&a…

电子阅览室能给孩子做什么

电子阅览室为孩子提供了很多活动和资源,可以为他们提供以下服务: 1. 提供电子书籍和儿童读物:电子阅览室通常提供大量的电子书籍和儿童读物,供孩子选择阅读。 2. 提供儿童学习资源:专久智能电子阅览室可以提供各种学习…

CraftCMS ConditionsController.php 代码执行漏洞(CVE-2023-41892)

0x01 产品简介 Craft CMS是一个开源的内容管理系统,它专注于用户友好的内容创建过程,逻辑清晰明了,是一个高度自由,高度自定义设计的平台吗,可以用来创建个人或企业网站也可以搭建企业级电子商务系统。 0x02 漏洞概述 Craft CMS在4.4.15版本之前存在远程代码执行漏洞,…

[论文笔记]MemGPT: Towards LLMs as Operating Systems

引言 今天介绍一篇论文MemGPT: Towards LLMs as Operating Systems。翻过过来就是把LLM看成操作系统。 大语言模型已经在人工智能领域引起了革命性的变革,但受到有限上下文窗口的限制,在扩展对话和文档分析等任务中的效用受到了阻碍。为了能够利用超出…

4月啤酒品类线上销售数据分析

近期,中国啤酒行业正处于一个重要的转型期。首先,消费者对高品质啤酒的需求不断增加,这推动了行业向高端化、场景化和社交化的方向发展。精酿啤酒作为这一趋势的代表,其发展势头强劲,不仅满足了消费者对品质化、个性化…

蓝桥杯2024国赛--备赛刷题题单

1.游戏&#xff08;单调队列&#xff09; 注意如果结果是分数&#xff0c;直接设置变量为double&#xff0c;最好不要使用把int类型乘1.0变成分数来计算。 #include <iostream> #include <queue> using namespace std; const int N1e510; //滑动窗口大小为k,最大值…

2024上海中小学生古诗文大会方案已发布,家长孩子最关心10个问题

昨天&#xff08;2024年5月30日&#xff09;下午15点&#xff0c;上海中小学生古诗文大会组委会通过两个公众号发布了《2024上海中小学生古诗文大会系列活动方案出炉》的推文&#xff08;下称《方案》&#xff09;。如我之前的分析和预测&#xff0c;5月份会发布今年的中小学生…

邮件服务器部署

目录 介绍 资源列表 基础环境 关闭防火墙 关闭内核安全机制 修改主机名 一、部署DNS服务器 mail节点操作 修改DNS地址 二、部署postfix和dovecot 安装软件包 修改postfix配置文件 重启postfix服务和开机自启 修改dovecot配置文件 重启dovecot服务和开机自启 创…

微服务:一篇博客带你学会Gateway(路由、过滤、跨域问题配置)

文章目录 Gateway搭建路由断言工厂路由过滤器全局过滤器过滤器执行顺序网关的core跨域配置跨域问题配置 Gateway 网关功能&#xff1a; 身份认证、权限校验服务路由、负载均衡请求限流 搭建 gateway也算一个服务 所以创建gateway子模块 引入依赖 <dependency><gro…

AIGC智能办公实战 课程,祝你事业新高度

在数字化时代&#xff0c;人工智能&#xff08;AI&#xff09;已经渗透到我们生活的方方面面&#xff0c;从智能家居到自动驾驶&#xff0c;从医疗诊断到金融分析&#xff0c;AI助手正在改变我们的工作方式和生活质量。那么&#xff0c;你是否想过自己也能从零开始&#xff0c;…

Redis学习笔记【实战篇--短信登录】

开篇导读 实战篇有什么样的内容 短信登录 这一块我们会使用redis共享session来实现 商户查询缓存 通过本章节&#xff0c;我们会理解缓存击穿&#xff0c;缓存穿透&#xff0c;缓存雪崩等问题&#xff0c;让小伙伴的对于这些概念的理解不仅仅是停留在概念上&#xff0c;更…

音视频直播(一)

协议基础篇 直播协议基础推流与拉流推流拉流 直播传输协议RTMP传输协议 && HTTP-FLV协议为什么RTMP做推流&#xff0c;反而很少做拉流&#xff1f;HTTP-FLV协议 RTSP协议HLS协议SRT协议 WebRTC协议应用于直播 直播协议基础 从网络上搜寻到的有关推流与拉流的示意图 从…

Java项目对接redis,客户端是选Redisson、Lettuce还是Jedis?

JAVA项目对接redis&#xff0c;客户端是选Redisson、Lettuce还是Jedis&#xff1f; 一、客户端简介1. Jedis介绍2. Lettuce介绍3. Redisson介绍 二、横向对比三、选型说明 在实际的项目开发中&#xff0c;对于一个需要对接Redis的项目来说&#xff0c;就面临着选择合适的Redis客…

如何从浅入深理解transformer?

前言 在人工智能的浩瀚海洋中&#xff0c;大模型目前无疑是其中一颗璀璨的明星。从简单的图像识别到复杂的自然语言处理&#xff0c;大模型在各个领域都取得了令人瞩目的成就。而在这其中&#xff0c;Transformer模型更是成为大模型技术的核心。 一、大模型的行业发展现状如…