推荐系统(4)-逻辑回归LR、POLY2、FM、FFM

逻辑回归LR、POLY2、FM、FFM

  • 1.逻辑回归LR
  • 2.辛普森悖论
  • 3.POLY2
  • 4.FM-2010
  • 5.FFM
  • 6.GBDT+LR-2014
  • 7.LS-PLM-2017

《深度学习/推荐系统》读书笔记

1.逻辑回归LR

Logistic Regression – 融合多种特征,通过sigmoid 函数,预测样本的被点击的概率。样本用特征向量x=[x1,x2,...,xn]x=[x_1,x_2,...,x_n]x=[x1,x2,...,xn]表示,n为不同特征的数量。
f(z)=11+e−zf(z)=\frac{1}{1+e^{-z}}f(z)=1+ez1

z=w0+∑i=1nwixi(1)z=w_0+\sum_{i=1}^nw_ix_i\tag{1}z=w0+i=1nwixi(1)
(每个特征如何编码[性别,年龄,身高],这里应该默认每一维度就是一个特征吧,而不是每个特征one-hot 编码的拼接。)
CTR-Click Through Rate

  1. 将用户的年龄、性别、物品属性、描述、时间、地点等特征数值化成特征向量
  2. 确定罗辑回归模型的优化目标(点击率模型就是最大似然函数),训练模型权重参数
  3. 推断阶段,输入特征向量,得到某个用户对物品点击的概率
  4. 对物品点击概率进行排序后推荐。

记样本被点击的概率为P(y=1∣x,w)=fw(x)P(y=1|x,w)=f_w(x)P(y=1x,w)=fw(x),
样本不被点击的概率为P(y=0∣x,w)=1−fw(x)P(y=0|x,w)=1-f_w(x)P(y=0x,w)=1fw(x)
那么样本被点击的概率分布为:P(y∣x,w)=[fw(x)]y[1−fw(x)]1−yP(y|x,w)=[f_w(x)]^y[1-f_w(x)]^{1-y}P(yx,w)=[fw(x)]y[1fw(x)]1y
最大似然估计的目标函数为:
L(w)=∏i=1mP(y∣xi,w)L(w)=\prod_{i=1}^mP(y|x^i,w)L(w)=i=1mP(yxi,w)

逻辑回归模型做推荐的优势

  1. 点击率与罗辑回归模型的数据假设一直,都是伯努利分布
  2. 可解释性强,逻辑回归模型是广义的线性回归模型,能够通过特性向量各个维度权重的大小来反映各个维度的作用
  3. 模型简单,易于并行,训练开销小

逻辑回归的局限性:无法进行特征交叉组成高维特征

后续的POLY2,FM,FFM 用于CTR预测时,都可以看作在LR目标函数的基础上,研究不同的特征组合方式。训练参数的方法都与上述LR中的最大似然一致。

2.辛普森悖论

在对样本进行分组研究时,在分组比较中占优势的一方,在总评中有时反而是失势的一方。

demo:按性别分组后的数据,男女都是推荐视屏B;但是将所有的数据合并在一起后,却得出推荐视频A的结论。

获取特征非线性组合的一个常用方法和核方法(核方法计算量大,内存需求大)

3.POLY2

Degree-2 Polynomial Margin–度为2多项式特征

考虑所有二阶特征组合方式,并且为所有的二阶特征构建可学习参数。
z=w0+∑i=1nwixi+∑i=1n−1∑j=i+1nwi,jxixjz=w_0+\sum_{i=1}^nw_ix_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^nw_{i,j}x_ix_jz=w0+i=1nwixi+i=1n1j=i+1nwi,jxixj

相比于原始LR的式子(1),新增组合特征n(n−1)2\frac{n(n-1)}{2}2n(n1)

缺点:

  1. 参数数量指数增加,极大增加了训练的复杂度
  2. 数据稀疏特征使得大部分交叉特征权重缺乏有效训练数据,无法收敛。

4.FM-2010

Factorization Machine–因子分解机(原来因子分解机本身是一个可以展开研究的内容,本博文注重FM特征组合方式,)

2010年提出,2012-2014年,成为业内主流的推荐模型之一。原文–《Fast Context-aware Recommendations with Factorization Machines》

FM为每个特征学习一个隐权重向量(latent vector), 在做特征交叉时,使用两个特征隐权重向量的内积作为交叉特征的曲子权重(权重向量的学习,后续补上好吧)

z=w0+∑i=1nwixi+∑i=1n−1∑j=i+1n<wj1,wj2>xixjz=w_0+\sum_{i=1}^nw_ix_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^n<w_{j_1},w_{j_2}>x_ix_jz=w0+i=1nwixi+i=1n1j=i+1n<wj1,wj2>xixj

优点:

  1. 把权重参数的数量从Poly2的n2n^2n2降到的knknkn(k为特征向量的维度)
  2. 能够很好的解决数据稀疏问题,隐向量的学习不仅依赖某个稀疏特征。

5.FFM

Field-aware Factorization Machine
不同特征在组合时,隐向量的作用域应该不同;也就是说不同的特征不止一个隐权重向量。

z=w0+∑i=1nwixi+∑i=1n−1∑j=i+1n<wj1,f2,wj2,f1>xixjz=w_0+\sum_{i=1}^nw_ix_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^n<w_{j_1,f_2},w_{j_2,f_1}>x_ix_jz=w0+i=1nwixi+i=1n1j=i+1n<wj1,f2,wj2,f1>xixj

适用于离散特征聚合,连续特征最好使用FM 。


参考博文:CTR预估传统模型

6.GBDT+LR-2014

2014-Facebook 提出利用GBDT自动进行特征筛选和组合,进而形成新的离散特征向量,将该特征向量当作LR模型的输入。

用GBDT构建特工程和利用LR预估CTR这两步是独立训练的,不存在将LR的梯度回传到GBDT的复杂问题。

GBDT-梯度上升决策树。每棵树都是一棵标准的回归树生成过程,其目标是上一棵树的预测值D(x)D(x)D(x)与样本标签f(x)f(x)f(x)之间的残差:
R(x)=f(x)−D(x)R(x)=f(x)-D(x)R(x)=f(x)D(x)
每棵树每个节点分裂是一个自然的特征选择的过程,多层结点结构则对特征进行了有效的自动组合。(没法产生新的特征)

每个样本转换成特征向量的方式很巧妙–样本落入的叶子结点为1,没有落入的结点为0,构成一个类似于one-hot编码的向量,把所有子树编码向量串在一起,构成了该样本的特征向量。

迷惑点1:GBDT模型的训练过程没有实验过,特征分裂与一般回归树一样么?残差有什么用呢?
迷惑点2:样本特征转换,最终特征向量与原始特征的关联不是很强了,可解释性减弱。

7.LS-PLM-2017

2017年-阿里巴巴公布大规模分段线性模型(Large Scale Piece-wise Linear Model)。其实早在2012年他就成为了阿里巴巴主流的推荐模型。

LS-PLM 又被称作混合罗辑回归(Mixed Logistic Regression),先对样本进行分片(聚类操作?),在样本分片中应用罗辑回归。

灵感来源很重要:女性受众点击女装广告的CTR,显然不希望把男性用户点击数码产品的样本数据也考虑进来。

某个样本被点击的概率为分片加权平均:
f(x)=∑i=1mπi(x)ηi(x)=∑i=1meμix∑j=1meμjx11+e−wixf(x)=\sum_{i=1}^m\pi_i(x)\eta_i(x)=\sum_{i=1}^m\frac{e^{\mu_ix}}{\sum_{j=1}^me^{\mu_jx}}\frac{1}{1+e^{-w_ix}}f(x)=i=1mπi(x)ηi(x)=i=1mj=1meμjxeμix1+ewix1
其中m为分片数。μi\mu_iμiwiw_iwi的学习同时进行么? 阿里巴巴给出m的经验值12最佳。LS-PLM适用于工业级推荐、广告等大规模稀疏数据场景。

主要优点:

  1. 端到端非线性学习能力
  2. 模型系数性强

LS-PLM可以看作加入了注意力机制的三层神经网络:输入层为样本特征,隐藏层为m个以sigmoid为激活函数的神经元,输出层为单个神经元。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/444720.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

leetcode125验证回文串

给定一个字符串&#xff0c;验证它是否是回文串&#xff0c;只考虑字母和数字字符&#xff0c;可以忽略字母的大小写。 说明&#xff1a;本题中&#xff0c;我们将空字符串定义为有效的回文串。 示例 1: 输入: "A man, a plan, a canal: Panama" 输出: true 示例 …

配置 Elastic Beanstalk 环境负载均衡器以终止 HTTPS

&#xfeff;&#xfeff;配置 Elastic Beanstalk 环境负载均衡器以终止 HTTPS 要更新您的 AWS Elastic Beanstalk 环境以使用 HTTPS&#xff0c;您需要为您的环境中的负载均衡器配置 HTTPS 侦听器。以下两种类型的负载均衡器支持 HTTPS 侦听器&#xff1a;传统负载均衡器和应用…

AWS 给负载均衡器配置侦听器并上传IAM证书

&#xfeff;&#xfeff;1.打开EC2的负载均衡器&#xff1a;添加侦听器&#xff0c;选择https&#xff0c;ssl证书需要有一个CA证书&#xff0c;可以去阿里云申请&#xff0c;也可以从亚马逊获取&#xff1a;注意&#xff0c;这里的ssl证书要这样写其中私有密钥不是那种xxxxxx…

PaperNotes(19)-Learning Lane Graph Representations for Motion Forecasting

Learning Lane Graph Representations for Motion Forecasting1.ActorNet2.MapNet3.FusionNet4.Prediction Header5.模型参数学习自动驾驶论文阅读笔记2 Uber–ECCV2020–论文文章代码 模型的作用&#xff1a;Motion Forecasting &#xff08;这个motion都包括什么呢&#xff…

leetcode41 缺失的第一个正数

给定一个未排序的整数数组&#xff0c;找出其中没有出现的最小的正整数。 示例 1: 输入: [1,2,0] 输出: 3 示例 2: 输入: [3,4,-1,1] 输出: 2 示例 3: 输入: [7,8,9,11,12] 输出: 1 说明: 你的算法的时间复杂度应为O(n)&#xff0c;并且只能使用常数级别的空间。 思路&am…

Linux(10)-Make编译,Configure

Make编译机制,Configure1.Make机制demo1.make编译demo2.make清理demo3:make 安装demo4:make 卸载2.configure2.1 Autoconf2.2 软件的源码安装软件发布的一些基础知识。gcc, cpp, as, ld–施工队&#xff0c;底层干活工人make --包工头&#xff0c;指挥工人工作configure–分析师…

redis排行榜之日排行周排行设计

排行榜功能是一个很普遍的需求。使用 Redis 中有序集合的特性来实现排行榜是又好又快的选择。 一般排行榜都是有实效性的,比如“用户积分榜”。如果没有实效性一直按照总榜来排,可能榜首总是几个老用户,对于新用户来说,那真是太令人沮丧了。 首先,来个“今日积分榜”吧,…

Linux(11)-Ubuntu装系统

Ubuntu18.04装系统单系统双系统启动项dell 5820进不去bios。单系统 装过好多次ubuntu系统&#xff0c;每次要重装之前总是得搜索各种教程。现在总结一份简略教程如下&#xff0c;以备哪天装系统之需。 1.官网上下载Ios文件:https://ubuntu.com/download/desktop 2.找一个U盘…

最近准备学习下mongodb(一 Windows安装篇)

1 先安装mongodb 的windows版本&#xff0c;Linux的我后期会加上的。 https://www.mongodb.com/dr/fastdl.mongodb.org/win32/mongodb-win32-x86_64-2008plus-ssl-4.0.0-signed.msi/download 2.安装php扩展插件&#xff1a; https://pecl.php.net/package/mongo 根据自己的…

leetcode139 单词拆分

给定一个非空字符串 s 和一个包含非空单词列表的字典 wordDict&#xff0c;判定 s 是否可以被空格拆分为一个或多个在字典中出现的单词。 说明&#xff1a; 拆分时可以重复使用字典中的单词。 你可以假设字典中没有重复的单词。 示例 1&#xff1a; 输入: s "leetcode…

Linux(12)-Ubuntu装机后的基础应用

Ubuntu装机ssh服务器 sudo ps -e |grep ssh # 查看ssh 服务安装情况 ssh-agent--ssh客户端&#xff0c;连别人&#xff1b; sshd--ssh服务器&#xff0c; 被别人连 sudo apt-get update # 更新软件源 sudo apt-get install openssh-server # 安装ssh服务端ssh设置别…

OpenSSL编写SSL,TLS程序

一、简介:SSL(Secure Socket Layer)是netscape公司提出的主要用于web的安全通信标准,分为2.0版和3.0版.TLS(Transport Layer Security)是IETF的TLS 工作组在SSL3.0基础之上提出的安全通信标准,目前版本是1.0,即RFC2246.SSL/TLS提供的安全机制可以保证应用层数据在互联网络传输不…

PRML(3)--Chapter2(上)-概率分布-二元变量、多项式变量、高斯分布、指数族分布

PRML第二章上-概率估计2.1二元变量2.1.1 beta 分布2.2 多项式变量2.3 高斯分布2.3.1条件高斯分布、2.3.2边缘高斯分布2.3.3 高斯变量的贝叶斯定理2.3.4 高斯分布的最大似然估计2.3.5 顺序估计2.3.6 高斯分布的贝叶斯推断2.3.7 学生t分布2.3.8周期性变量2.3.9混合高斯分布2.4 指…

leetcode27 移除元素

给定一个数组 nums 和一个值 val&#xff0c;你需要原地移除所有数值等于 val 的元素&#xff0c;返回移除后数组的新长度。 不要使用额外的数组空间&#xff0c;你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。 元素的顺序可以改变。你不需要考虑数组中超出新…

Harris的角点检测和特征匹配

一.特征检测&#xff08;提取&#xff09; 基于特征的图像配准方法是图像配准中最常见的方法之一。它不是直接利用图像像素值&#xff0c;二十通过像素值导出的符号特征&#xff08;如特征点、特征线、特征区域&#xff09;来实现图像配准&#xff0c;因此可以克服利用灰度信息…

开始入坑深度学习(DeepLearning)

现在游戏越来越难做,国家广电总局审核越来越变态,国家各种打压游戏,游戏产业也成为教育失败的背锅侠,所以本人现在开始做深度学习方向。 深度学习研究的热潮持续高涨,各种开源深度学习框架也层出不穷,其中包括TensorFlow、Caffe、Keras、CNTK、Torch7、MXNet、Leaf、The…

PRML(4)--Chapter2(下)-非参数估计

PRML第二章下-非参数估计1.直方图2. 核方法3. K近邻概率密度建模-参数化方法-概率密度的形式一定&#xff0c;由数据集确定密度中的参数即可。 局限性–概率模型选的不对&#xff0c;不能够描述数据模态 此时&#xff0c;介绍一下非参数方法–直方图&#xff0c;核方法&#…

《盘点那些秀你一脸的秒天秒地算法》(1)

本系列坚持格式&#xff1a;1个抖机灵算法2个较简单但是天秀的算法1个较难天秀算法。 bogo排序 Bogo排序(Bogo-sort)&#xff0c;又被称为猴子排序&#xff0c;是一种恶搞排序算法。 将元素随机打乱&#xff0c;然后检查其是否符合排列顺序&#xff0c;若否&#xff0c;则继续…

caffe安装篇(一)

caffe我选择使用ubuntu源码安装,所以先执行: sudo apt-get install -y libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libboost-all-dev protobuf-compiler libhdf5-serial-dev sudo apt-get install -y libgflags-dev libgoogle-glog-dev liblmdb-dev prot…

caffe2安装篇(三)通过docker安装

用普通的安装方式走了不少弯路,感觉还是用docker方便: 参考的是https://hub.docker.com/r/caffe2ai/caffe2/ Latest docker pull caffe2ai/caffe2 Comes with GPU support, CUDA 8.0, cuDNN 7, all options, and tutorial files. Uses Caffe2 v0.8.1. GPU images (for us…