推荐系统——GBDT+LR

[[逻辑回归模型]]

逻辑回归是在[[线性回归]]的基础上添加了一个Sigmoid函数(非线形)映射,从而可以使逻辑回归成为一个优秀的分类算法
逻辑回归假设数据服从[[伯努利分布]],通过[[极大化似然函数]]的方法,运用[[梯度下降]]来求解参数,来达到将数据二分类的目的。
相比于[[协同过滤]]和[[矩阵分解]]利用用户的物品“相似度”进行推荐,LR将问题看成一个分类问题,通过预测正样本的概率对物品进行排序,因此逻辑回归模型将推荐问题转化成了一个点击率预估问题。

逻辑回归做推荐的步骤

  1. 将用户年龄、性别、物品属性、物品描述、当前时间、当前地点等特征转成数值向量
  2. 确定逻辑回归的优化目标,比如把点击率预测转换成二分类问题,这样就可以得到分类问题常用的损失作为目标,训练模型
  3. 在预测的时候,将特征向量输入模型产生预测,得到用户“点击”物品的概率
  4. 利用点击概率对候选物品排序,得到推荐列表

![[Pasted image 20201030171926.png]]

对于LR模型而言,主要关键为求出每个特征的权重参数www,一般是使用梯度下降的方式

优点:

  1. LR模型形式简单,可解释性好,从特征的权重可以看到不同的特征可以看到不同的特征对最后结果的影响
  2. 训练时便于并行化,在预测时只需要对特征进行线性加权,所以性能比较好,适合处理海量id类特征,且使用id类特征有一个很重要的好处,即防止信息损失(相对于范化的CTR特征),对于头部资源会有更细致的描述
  3. 资源占用少尤其内存,在实际的工程应用中只需要存储权重比较大的特征及特征对应的权重
  4. 方便对输出结果调整。LR可以方便的得到最后的分类结果,因为输出的是每个样本的概率分数,我们可以很容易的对这个概率分数进行阈值的划分。

缺点:

  1. 无法进行特征交叉得到更多信息
  2. 准确率并不是很高
  3. 处理非线性数据比较麻烦,LR在不引入其他方法的情况下,只能处理线性可分的数据,如果想处理非线性,首先需要对连续特征的处理进行离散化
  4. LR需要进行人工特征组合

所以如何自动发现有效的特征、特征组合,弥补人工经验不足,缩短LR特征实验周期,可以交由[[GBDT]]来做,它可以自动发现特征并进行有效组合

[[GBDT]]模型

GBDT名为梯度提升树,是传统机器学习中对真实分布拟合最好的几种算法之一
GBDT通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的误差来达到将数据分类或者回归的算法。
GBDT每轮产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练。GBDT对弱分类器的要求只要求足够简单,并且地方低方差高偏差(欠拟合)。由此,每个分类回归树的深度不会很深,最终的总分类器是将每轮训练得到的弱分类器加权求和得到。
GBDT来解决二分类和回归问题的本质一样,都是通过不断构建[[决策树]],使预测结果一步步接近目标值。
GBDT在回归问题上一般使用平方损失,而在二分类问题中,GBDT和逻辑回归一样,使用交叉熵

构建分类GBDT的过程:

  1. 初始化GBDT
    分类GBDT的初始状态只有一个叶子节点,该节点为所有样本的初始预测值:F0(x)=argmin⁡γ∑i=1nL(y,γ)F_0(x) = arg \min_{\gamma} \sum_{i=1}^n L(y, \gamma)F0(x)=argγmini=1nL(y,γ)
    其中,FFF代表GBDT模型,F0F_0F0是模型的初识状态,该式子的意思是找一个γ\gammaγ,使所有的样本的LossLossLoss最小,而γ\gammaγ表示节点的输出,即叶子节点,是一个log(ηi)log(\eta_i)log(ηi)形式的回归值,在初始状态,γ=F0\gamma = F_0γ=F0

    具体例子可以参考学习资料中例子P59

    GBDT的优缺点:
    对于GBDT而言,生成树的过程实际上就是自动进行多维度的特征组合的过程,从根节点到叶子节点上的整个路径(多个特征值判断),才能最终决定一棵树的预测值,另外,对于连续型特征的处理,GBDT可以拆分出一个临界阈值。
    而GBDT对于海量的id类特征,GBDT由于树的深度和树的数量限制(防止过拟合),不能有效存储;另外海量特征也会存在性能瓶颈,当GBDT的one hot特征大于100k维时,需要做分布式训练才能保证不爆内存,因此,GBDT通常配合少量的反馈CTR特征来表达,在带来一定范化能力的同时会有信息损失,对于头部资源无法有效表达。
    因此提出GBDT+LR

    GBDT+LR

    GBDT+LR:先利用GBDT进行特征筛选和组合进而生成新的离散特征向量,再把该特征向量当作LR模型的输入,来产生的最后的预测结果。
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/427321.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从燃尽图看项目管理:你的项目哪里出错了?(燃尽图类型全解析)

什么是燃尽图 燃尽图(burn down chart)是在项目完成之前,对需要完成的工作任务的一种可视化表示。理想情况下,该图表是一个向下的曲线,随着项目任务的逐渐完成“烧尽”至零。 燃尽图常常用于敏捷开发中,作为…

springtboot 引用子工程的文件_xmake从入门到精通11:如何组织构建大型工程

xmake是一个基于Lua的轻量级现代化c/c的项目构建工具,主要特点是:语法简单易上手,提供更加可读的项目维护,实现跨平台行为一致的构建体验。本文主要详细讲解下,如何通过配置子工程模块,来组织构建一个大规模…

依赖项出现感叹号怎么办_SpringBoot中如何对依赖进行管理?

SpringBoot中的起步依赖(starter)是一组特定功能的依赖项集合,SpringBoot通过starter来进行项目的依赖管理,而不是直接基于单独的依赖项来进行依赖管理。starter其实就是特殊的Maven依赖项或者Gradle依赖项,它把常用的库组合到一起构成了一个…

5g理论速度_5G是什么?5G速度有多快?

原标题:5G是什么?5G速度有多快?5G到底是什么东西?今年5G网络会普及吗?5G网速到底有多快,背后又有哪些黑科技?近日,全球首个5G火车站在上海虹桥火车站启动建设。而根据三大运营商的时…

c++ new一个结构体_「C/C++」构造类型及应用:数组、结构体、共用体、枚举类型...

3.1数组同类型、同性质、按顺序存放的一组数据集合,易于批量处理。3.1.1一维数组定义int 1.数组名为常量,指向首地址,由系统指定。2.数组长度为整型常量,但不能为03.上例取值image[0]-image[255],取值可以修改。初始化int 输入for…

自动产生fsm代码的工具_代码自动生成工具

构建支持多种数据库类型的代码自动生成工具背景:一般的业务代码中写来写去,无外乎是先建好model,然后针对这个model做些CRUD的操作。(主要针对单表的业务操作)针对于数据库dao、mapper等的代码自动生成已经有了mybatisGenerator这种工具&…

gtest测试框架使用详解_测试框架TestNG使用介绍

近期接触到了一个比较全面的基于Java的接口自动化测试框架,作为一名Java小白,所以打算研究一下,顺带学习学习Java,该测试框架的逻辑控制层使用的HttpClient TestNG。在本期中,给大家分享一下TestNG测试框架的基础知识…

LOJ#6282. 数列分块入门 6

一个动态的插入过程,还需要带有查询操作。 我可以把区间先分块,然后每个块块用vector来维护它的插入和查询操作,但是如果我现在这个块里的vector太大了,我可能的操作会变的太大,所以这时候我需要把现在里面的数全部拿出…

fragment在activity中的静态和动态用法_使用Matlab修改压缩Gif动态图片制作微信表情...

脚本之家你与百万开发者在一起作者:theOwlAndPussyCat/焦旭光引言电脑里存了很多有意思的Gif动态图片,闲暇想把这些动图全导入微信表情,可是这些动图很多大小超过了微信表情大小1MB的限制,要制作成表情只能压缩图像文件大小。网上…

frontcon函数用不了_C++复制构造函数与析构函数

想用机器人赋能未来,少不了扎实的编程的基本功,让我们跟着清华大学的C语言程序设计课程一起过一遍C的语法知识吧!当定义基本类型的变量时,经常会用已有的变量去初始化新定义的变量,当定义对象的时候也有类似的需求&…

软件项目立项书_2019年度上海市软件和集成电路产业发展专项资金项目立项

上海艾瑞德生物科技有限公司荣获2019年上海市软件和集成电路产业发展专项资金(集成电路和电子信息制造领域)项目立项!上海艾瑞德生物科技有限公司的【医用体外诊断动态光场图像采集电子模块的研发及产业化】喜获2019年上海市软件和集成电路产业发展专项资金(集成电路…

mysql提供了表示日期和时间的数据类型_MySQL数据类型 - 日期和时间类型(1)

1.日期和时间数据类型语法用于表示时间值的日期和时间数据类型是DATE, TIME, DATETIME, TIMESTAMP和 YEAR。对于TIME, DATETIME和 TIMESTAMP值,MySQL支持小数秒,精度可达微秒(6位数)。要定义包含小数秒部分的列,请使用语法type_name(fsp)&…

软件质量保证计划_CMMI V2.0 精讲之“过程质量保证”

过程质量保证(PROCESS QUALITY ASSURANCE, PQA)目的:验证并改进已执行的过程和所产生的工作产品的质量。价值:增强过程使用和改进的一致性,以最大限度地提高业务效益和客户满意度。实践概述第1级PQA 1.1识别并解决过程和工作产品问题。第2级P…

mysql gzip_在mysql中存储GZIP:ed文本?

Is it a common thing for bigger applications and databases to GZIP text data before inserting it to the database?Ill guess that any full-text search on the actual text field will not be working before unzipping it again?解决方案Ive not seen this done muc…

html 分页_JQuery堪称完美的分页函数

演示效果&#xff1a;html部分&#xff08;引入jquery.js&#xff09;<!DOCTYPE html> <html> <head> <meta charset"UTF-8"> <title>jQuery简单的分页插件</title> </head><link rel"stylesheet" href"…

mysql 8.0.12解压版安装教程_mysql 8.0.12 解压版安装教程

本文为大家分享了mysql 8.0.12 解压版安装教程&#xff0c;供大家参考&#xff0c;具体内容如下1、首先在官网上下载mysql8.0.12的压缩包&#xff1a;下载地址2、下载成功后解压到任意目录&#xff0c;比如我的是E:\download\mysql-8.0.12-winx64&#xff1b;3、配置环境变量&a…

简洁又快速地处理集合——Java8 Stream(下)

上一篇文章我讲解 Stream 流的基本原理&#xff0c;以及它与集合的区别关系&#xff0c;讲了那么多抽象的&#xff0c;本篇文章我们开始实战&#xff0c;讲解流的各个方法以及各种操作 没有看过上篇文章的可以先点击进去学习一下 简洁又快速地处理集合——Java8 Stream&#xf…

python入口函数的作用_python之函数中参数的作用域

学编程究竟学的是什么呢&#xff1f;在写文章的这几天也一直在思考这个问题——恐怕这也是接下来的几年一直会去思考的问题。这个问题的答案也会指导我的方法论&#xff0c;所以索性整顿一下。 现阶段我的回答是&#xff0c;发现需求&#xff0c;然后解决。 最大的需求无非是完…

idea lombok 离线安装_Lombok与IntelliJ IDEA干了一架,完胜

我相信前段时间&#xff0c;有更新IDEA到2020.2版本的同学&#xff0c;在安装Lombok的过程中&#xff0c;肯定遇到与Lombok无法兼容的问题&#xff0c;并且报错&#xff1a;Caused by: com.intellij.psi.PsiInvalidElementAccessException: Element: class de.plushnikov.intel…

jquery设置宽_JavaScript学习笔记(三十二) jQuery(中)

jQuery昨天讲了 jQuery 的基本选择器筛选器和属性操作今天来说一些 jQuery 别的东西元素操作创建一个元素var div $()内部插入元素// 向 div 元素中插入一个 p 元素&#xff0c;放在最后$(div).append($())// 把 p 元素插入到 div 中去&#xff0c;放在最后$(hello).appendTo(…