【推荐系统算法学习笔记1】基本架构、专有名词、构建流程

文章目录

  • 1.架构
    • 1.1 大数据框架:lambda 架构的
    • 1.2.基本概念
  • 2. 推荐模型构建流程
    • 2.1 数据
      • 2.1.1 数据来源
      • 2.1.2 数据清洗、处理
    • 2.2 特征工程
    • 2.3 算法(机器学习)
  • 来源

在这里插入图片描述

1.架构

  • 推荐算法架构
    • 召回
      • 协同过滤
      • 基于内容的
      • 基于隐语义的
    • 排序
      • 召回决定了推荐的上限,排序逼近这个上限,体现推荐的效果
      • CTR预估(点击率-用LR线性回归),估计用户是否点这个商品,需要用户的点击数据
      • 策略调整
        • 比如某个item出现在列表里五次,用户也没点它,这时候就应该删了
        • 或者其他的商业需求

数据

在这里插入图片描述
在这里插入图片描述

  • 推荐系统业务架构图

在这里插入图片描述

1.1 大数据框架:lambda 架构的

lambda架构

  • 离线计算
    • hadoop
    • hive
    • spark core,spark sql
    • 优点:能处理数据量大
    • 缺点:速度慢,分钟级别延迟
  • 在线(实时
    • spark streaming
    • storm
    • flink
    • 优点:实时,ms
    • 缺点:处理数据量小
  • 消息中间件
    • flume日志采集系统
    • kafka 消息队列
  • 存储相关
    • hbase:nosql数据库
    • hive:sql操作hdfs数据
      在这里插入图片描述

1.2.基本概念

  1. 基本概念解释
    LTR 和 CTR 和 所谓的pointwise, pairwise, listwise的关系
    • LTR (learning to rank) 意思是 ‘学习排序’,就是排序的机器学习技术
    • CTR (click through rate) 意思是‘点击率(预估)’,这个很常见的二分类问题(点击概率0-1)
    • pointwise 含义是单点(单文档)角度
    • pairwise 含义是文档对角度
    • listwise 含义是(推荐)文档列表角度

2. 推荐模型构建流程

  • 数据收集
    • 显性评分
    • 隐性数据
  • 特征工程
    • 协同过滤:用户-物品 评分矩阵
    • 基于内容的推荐:分词/tf-idf,文本信息,word2vec
  • 训练模型
    • KNN
    • 矩阵分解
  • 评估、上线

在这里插入图片描述
数据->特征->机器学习算法->预测输出
算法以服务形式存在

  • Cross Sell
    • 电商
    • eg:买了手机就推荐手机壳
  • Up Sell

2.1 数据

2.1.1 数据来源

(js的点击事件。。。、业务数据、网上获取(基于内容的)
内容画像(从类似网站爬一下)、
用户画像(可以买一些。这个好像不合法)

  • 显性数据
    • 打分(Rating)
    • 评论、评价(Comments)
  • 隐形数据
    • 历史订单(Order history
    • 加购物车(cart events
    • 页面浏览(page views
    • 点击(Click-thru
    • 搜索记录(Search log)

2.1.2 数据清洗、处理

  • 数据清洗、处理

2.2 特征工程

  • 协同过滤:用户-物品 评分矩阵
  • 基于内容的推荐:分词/tf-idf,文本信息
  1. 从数据中筛选特征
  • 商品,可能会被有类似的品味或需求的用户购买
  • 使用用户的行为描述商品
  1. 用数据表示特征
    • 用户的行为合并–》user-item矩阵
      • 行:商品的向量
      • 列:用户的向量
      • 算向量间的相似度
        • 皮尔逊相似度
        • cos
        • 。。。
      • 拆矩阵,大矩阵拆成小的(SVD)
        在这里插入图片描述

2.3 算法(机器学习)

  • 协同过滤(Collaborative Filtering)

来源

  1. http://www.ainilearn.com/ 基础:包含推荐系统算法、hadoop、Hbase、Hive、spark等项目:离线用户、实时计算业务、推荐业务与深度学习。
  2. https://www.bilibili.com/video/BV1qK4y1479r?p=8

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481438.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepMind专题之创始人访谈|DeepMind创始人Demis Hassabis:AI 的强大,超乎我们的想象...

来源:图灵人工智能作者:黄楠、王玥编辑:陈彩娴导读:DeepMind,位于英国伦敦,是由人工智能程序师兼神经科学家戴密斯哈萨比斯(Demis Hassabis)等人联合创立的Google旗下 前沿人工智能企业。其将机…

世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成...

来源:ScienceAI编辑:陈萍、杜伟如今,在蛋白质结构预测领域,各大厂也出现了「百家争鸣,百家齐放」。今年,DeepMind 公布了大约 2.2 亿种蛋白质的预测结构,它几乎涵盖了 DNA 数据库中已知生物体的…

谷歌用AI研发「乒乓球机器人」,4分钟对拉300多次,还能指哪打哪!

一个人怎么练习乒乓球?或许这事你可以问问谷歌。最近,谷歌又玩新花样,这回是乒乓球机器人AI 项目,号称和人类对战时能够连续接球340次?!要知道,让解说员激动到破音的「乒乓球史上最疯狂一球」—…

【网络搜索】学习资料

文章目录1.综述2.相关技术3.课程4. 论文4.1综述召回预训练4.2 相关模型及论文5.书6. 博客6.1 电商搜索QP:Query Processor相关性1.综述 微软综述视频,较老但不过时 2.相关技术 相关技术目录 3.课程 北邮《网络搜索原理》2020 4. 论文 sigir 4.1综…

论文新鲜出炉 - 数学家张益唐攻克 Landau-Siegel 零点猜想(2022-11-05)

来源:北大大纽约校友会感谢钱朝晖师兄、贾德星师兄的分享。张益唐老师厉害,出来了!虽然还有待数学权威机构认定,但以张老师的性格,没有攻克他不会轻易公开。看了一下PDF时间戳,是昨天的:2022-11…

神奇!一篇不足700字的论文,竟然能发表在Science上

来源:彭聃龄科学网博客 作者:彭聃龄(北京师范大学教授)文字:南方配图:南方排版 :南方一篇不足700单词的文章为什么能发表在国际顶级期刊 Science 杂志上?刊登在 Science 上的这篇文…

【搜索/推荐排序】FM,FFM,AFM,PNN,DeepFM:进行CTR和CVR预估

文章目录1.FM1.1代码-是否点击预测效果和参数量级1.3 和其他模型的比较SVMMF2. FFMone-hot的比较eg训练注意事项效果和参数量级实现3. AFM4.FNN/PNN4.1 FNN4.2 PNN5. DeepFM与Wide&Deep比较与NFMFM 本来就可以在稀疏输入的场景中进行学习,为什么要跟 Deep 共享稠…

科学家首次3D生物打印出血管化肿瘤,并成功使用免疫疗法治疗

近些年,癌症治疗领域不断取得了突破性进展,但仍缺乏标准化和生理相关的体外测试平台。一个关键性障碍是肿瘤微环境和免疫反应之间复杂的相互作用。因此,该领域研究人员不得不依赖临床试验来测试治疗效果,最终限制了抗癌治疗药物的…

【搜索/推荐排序】总结

文章目录1.进化路线2. 公式比较1.进化路线 LR:没有较叉项->FM:LR交叉项,一个特征一个向量->FFM:一个特征对每一个field(属性名)的交互有一个向量,一个特征有一个特征矩阵。->AFM:每个内积都有一个权重&#…

人工智能帮助揭秘生物衰老的原理

编辑 | 萝卜皮年龄是流行疾病和死亡的主要风险因素。然而,人们对与年龄相关的生理变化和寿命之间的关系知之甚少。新加坡 Gero PTE 公司的研究人员结合分析和机器学习工具来描述大量纵向测量中的老化过程。假设衰老是由有机体状态的动态不稳定性引起的,该…

DALL-E 2的错误揭示出人工智能的局限性

OpenAI的文字图像转换器与文本、科学和偏见作斗争。在2022年4月,人工智能(AI)研究实验室OpenAI继2021年推出的DALL-E后,又推出了DALL-E 2。这两个人工智能系统都可以根据自然语言的文本描述来生成令人惊奇的图像,包括照…

【搜索/推荐排序】NCF,DeepCross,Deep Crossing,高阶:AutoINt,AFN

文章目录0.交叉特征1.NCF1.1 问题:基于FM的问题问题动机:神经网络替代点积1.2 NCF模型图1.3代码2. Deep Crossing:微软:ResNet3.Deep&Cross4. AutoInt(19)摘要贡献相关工作:模型结构优缺点实…

中国指挥与控制学会关于申请加入《城市大脑系列建设标准规范》第二批团体标准参编单位的通知...

来源:中国指挥与控制学会各有关单位和相关专家:2022年04月14日,中国指挥与控制学会组织召开立项评审会,与会专家审议通过了8个相关团体标准的立项申请。2022年9月1日,《城市大脑系列建设标准规范》首批三项团体标准《城…

【搜索/推荐排序】Pairwise:BPR

1.BPR 1.1 做法 构建样本对假设背后是某个常见模型:如MF排序对成立情况下倒推U/V向量,计算UV乘积,得到完整评分矩阵 矩阵分解:XˉWHT\bar{X}WH^TXˉWHT 贝叶斯:P(θ∣>u)P(>u∣θ)P(θ)P(>u)P(\theta|>_…

见证历史!数学家张益唐北大讲座:本质上已证明“零点猜想”,111页论文已公开...

来源:AI前线整理:凌敏有数论学者表示,张益唐有关朗道 - 西格尔零点猜想的论文结果意义重大,使得以前的很多结果从假设性结果变成了确定性结果。张益唐在北大作“零点猜想”学术报告11 月 8 日上午 9 点,数学家张益唐在…

【搜索排序】召回综述Semantic Models for the First-Stage Retrieval: A Comprehensive Review

Semantic Models for the First-Stage Retrieval: A Comprehensive Review 文章目录管道语义模型1.召回形式化1.0 Indexing MethodsThe inverted index倒排索引approximate nearest neighbor (ANN)1.1 classical term-based retrieval methods,VSM概率方法BIM二元独立模型语言模…

Science 封面 4 文连发:大脑分区不是功能关键!智慧从脑区间连接中诞生

来源:深度学术搜索是时候重新认识一下我们大脑的运行原理了!最新一期顶刊Science,以特刊的形式连发 4 篇论文,剑指同一核心要点:大脑各种功能的关键,并不在于各脑区独立完成特定功能,而在于不同…

【信息检索导论1】布尔模型

1.Information Retrieval 定义: Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). web search…

一个基于 Transformer 的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群...

编辑 | 萝卜皮通过组蛋白修饰对转录控制的定量表征受到许多计算研究的挑战,但其中大多数只关注启动子周围的狭窄和线性基因组区域,留下了改进的空间。韩国首尔大学的研究人员提出了 Chromoformer,这是一种基于 Transformer 的三维染色质构象感…

【搜索排序】预训练综述Pre-training Methods in Information Retrieval

文章目录相关性效率系统预训练word embeddingtransformers2. 召回阶段2.1 Sparse Retrieval Models2.2 Dense Retrieval Models。2.3 混合方式3.re-rank阶段4. 其他组件4.1 在query理解上4.2 在doc理解上:未来工作数据集数据集中排行榜信息检索中的花式预训练综述&a…