推荐系统学习二

推荐系统学习二

news/2025/10/22 11:43:46/文章来源:https://blog.csdn.net/wangqiaowq/article/details/139436923

双塔模型的结构

用户的特征，我们知道用户ID还能从用户填写的资料和用户行为中获取很多特征，包括离散特征和连续特征。所有这些特征不能直接输入神经网络，而是要先做一些处理，比如用embedding层把用户ID映射到一个向量

跟之前我们讲过的离散特征的做法相同，用户还有很多离散特征，比如所在城市感兴趣的话题等等。
用embedding层把用户的离散特征映射成向量，对于每个离散特征，用单独一个embedding层得到一个向量，比如用户所在城市，用一个embedding层
用户感兴趣的话题，用另一个embedding层
对于性别这样类别数量很少的离散特征，直接用one hot编码就行，可以不做embedding

用户还有很多连续特征，比如年龄、活跃程度、消费金额等等。

不同类型的连续特征有不同的处理方法，最简单的是做归一化，让特征均值是零，标准差是一。
有些长尾分布的连续特征需要特殊处理，比如取log，比如做分桶，做完特征处理，得到很多特征向量，把这些向量都拼起来输入神经网络。神经网络可以是简单的全连接网络，也可以是更复杂的结构，比如深度交叉网络。
神经网络输出一个向量，这个向量就是对用户的表征。

做召回用到这个向量。

物品的特征也是用类似的方法处理

用embedding层处理物品ID和其他离散特征，
用归一化取对数或者分桶等方法处理物品的连续特征，
把得到的特征输入一个神经网络。

神经网络输出的向量就是物品的表征，用于召回。

双塔模型

本模型直接拿用户表征rep和物品表征rep去融合，史称后端特征融合模型

左边的塔提取用户的特征
右边的它提取物品的特征
跟上一篇文章的矩阵补充模型相比，双塔模型的不同之处就在于使用了ID 之外的多种特征，
作为双塔的输入，两个塔各输出一个向量记作a和b，
两个向量的内积就是模型最终的输出rate，它即预估用户对物品的兴趣。

现在更常用的输出方法是余弦相似度。

两个塔的输出，分别记作向量a和b，余弦相似度意思是两个向量夹角的余弦值，
它等于向量内积除以a的二范数，再除以b的二范数，
其实就相当于先对两个向量做归因化，然后再求内积
余弦相似度的大小介于负一到正一之间。

二范数，也称为欧几里得范数或L2范数，在数学中是用来量化向量或矩阵大小的一种度量方式。根据不同的对象，二范数有两种主要的定义：

因为它提供了量化向量或矩阵大小的直观方式，并且与几何距离的概念紧密相关。

双塔模型的训练方法：pointwise，parawise，listwise

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/847574.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

tensorFlow内部使用了 opencv的算法吗？（回答由百度 AI 给出）

tensorFlow内部使用了 opencv的算法吗？（回答由百度 AI 给出）

百度 AI 回答：TensorFlow本身并不直接使用OpenCV的算法。TensorFlow是一个开源的机器学习框架，主要用于构建和训练深度学习模型，而OpenCV（Open Source Computer Vision Library）是一个开源的计算机视觉库，包…

阅读更多...

MongoDB~基础知识记录

MongoDB~基础知识记录

为何要学Mongodb 工作以来，使用最多、了解最多的是MySQL。但技术的发展一定是依据痛点来的，就比如我遇到的痛点，一个业务、一个平台能力、存储的一个对象，随着产品和运营的需求，不断的进行变更，每一次的变…

阅读更多...

JVM学习-监控工具(三)

JVM学习-监控工具(三)

jconsole 从Java5开始，在JDK中自带的java监控和管理控制台用于对JVM中内存、线程、和类等的监控，是一个基本JMX(java management extendsions)的GUI性能监控工具三种连接方式 Local：使用JConsole连接是一个正在本地系统运行的JVM&#xf…

阅读更多...

mfc110u.dll丢失的解决方法,分享七个有效方法

mfc110u.dll丢失的解决方法,分享七个有效方法

mfc110u.dll是一个动态链接库文件，属于Microsoft Foundation Classes (MFC) 的一部分。它是Microsoft Visual Studio 2012编程环境中用于C应用程序开发的一个组件。 1.2 功能与作用 mfc110u.dll文件提供了一系列的预构建类和函数，这些类和函数使得开发…

阅读更多...

一键式AI智能知识库-谈如何打造人性化的LLM RAG知识库的重要性

一键式AI智能知识库-谈如何打造人性化的LLM RAG知识库的重要性

RAG系统简介在现代的LLM RAG（Retrieval-Augmented Generation）系统中，数据流的设计至关重要。让我们通过一个具体的例子来详细描述一个标准RAG系统的数据流。首先，用户可以通过多种应用入口访问系统，包括PC应用、微…

阅读更多...

Codestral-22B-v0.1-4bit部署

Codestral-22B-v0.1-4bit部署

Codestral-22B-v0.1-4bit 模型文件地址 mistral-inference 仓库文件地址一、Codestral-22B-v0.1环境安装 1、硬件配置 2、配置环境建议最好自己新建一个conda环境 conda create -n codestral python3.10 -y cond…

阅读更多...

Golang Silce 切片哪些事情

Golang Silce 切片哪些事情

silce 本质上为用户提供了动态数组的功能，类型声明为 var sliceName []datatype ,datatype为类型， 1 2 3a : [1,2,3] a nil fmt.Println(a, len(a), cap(a) // [] 0 0nil slice 和普通 slice一样可以使用 cap len 内置函数，以及被 for rang…

阅读更多...

无人机、机器人10公里WiFi远距离图传模块，实时高清视频传输，飞睿CV5200模组方案，支持mesh自组网模块

无人机、机器人10公里WiFi远距离图传模块，实时高清视频传输，飞睿CV5200模组方案，支持mesh自组网模块

在快速发展的物联网时代，远距离无线通信技术已成为连接各种智能设备的关键。无人机、安防监控、机器人等领域对数据传输的距离和速度要求越来越高。公里级远距离WiFi模组方案可以通过多种技术和策略的结合来实现无人机和机器人之间的高效通信传输。飞睿智能CV52…

阅读更多...

如何看待时间序列与机器学习？

如何看待时间序列与机器学习？

GPT-4o 时间序列与机器学习的关联在于，时间序列数据是一种重要的结构化数据形式，而机器学习则是一种强大的工具，用于从数据中提取有用的模式和信息。在很多实际应用中，时间序列与机器学习可以结合起来，发挥重要作用。…

阅读更多...

npm install报ENOENT: no such file or directory, open问题

npm install报ENOENT: no such file or directory, open问题

没有进行npm的初始化操作导致的 npm init -y 再 npm install npm install

阅读更多...

vue 按钮权限

vue 按钮权限

想要不同的用户拥有不同的功能权限使用v-has"search:mdtj:add（v-has中的字符自己编辑，一般是目录页面具体按钮功能） 例如： <a-button click"handleAdd" type"primary" icon"plus" v-ha…

阅读更多...

Linux编程--网络层和

Linux编程--网络层和

1.IP协议 1.1 协议头的格式 4位版本：指定IP协议的版本，IPV4就是4。 4位首部长度：*4 报头的长度 [0-60] 8位服务类型：3位优先权字段(已经弃用), 4位TOS字段, 和1位保留字段(必须置为0). 4位TOS分别表示: 最小延时, 最大吞吐量…

阅读更多...

中电金信：从规划到落地，中电金信全程陪伴式服务助力泛金融数字化转型

中电金信：从规划到落地，中电金信全程陪伴式服务助力泛金融数字化转型

在当前的全球经济和金融发展格局中，金融行业正经历着一场以数字化为核心的快速转型。中国银行业和保险业已经成功探索出一条数字化转型的路径，并积累了丰富的实践经验。然而，泛金融领域则仍处于数字化转型的初期阶段，其转型能力因…

阅读更多...

GitHub狂揽6700 Star，Python进阶必备的案例、技巧与工程实践

GitHub狂揽6700 Star，Python进阶必备的案例、技巧与工程实践

当下是 Python 急剧发展的时代，越来越多的人开始学习和使用Pyhon，而大家也遇到了各种问题。这份手册清晰、细致地介绍了 Python 代码应该遵循的编程风格，并解释了背后的原理和机制。入门 Python 语言相对简单，但写出优雅的代码并…

阅读更多...

开源数据库同步工具DBSyncer-数据库的连接

开源数据库同步工具DBSyncer-数据库的连接

开源数据库同步工具DBSyncer使用的是什么数据库呢？ 查看连接信息，如下： 如上图可知，DBSyncer支持两种方式的数据库连接方式， #storage #数据存储类型:disk(默认)/mysql(推荐生产环境使用) #disk-磁盘:/data/config(驱…

阅读更多...

第24讲：预处理详解

第24讲：预处理详解

文章目录 1. 预定义符号2. #define定义常量3. #define定义宏 1. 预定义符号 C语言设置了一些预定义符号，可以直接使用，预定义符号也是在预处理期间处理的。 __FILE__ //进⾏编译的源⽂件 __LINE__ //⽂件当前的⾏号 __DATE__ //⽂件被编译的⽇期 __TIM…

阅读更多...

『 Linux 』目录与软硬链接 (万字详解)

『 Linux 』目录与软硬链接 (万字详解)

文章目录如何理解目录目录项目录中的权限问题根目录Dentry缓存文件的增删改查与文件系统关系软硬链接软链接硬链接如何理解目录目录是一个文件存在其对应独立的Inode; $ stat dirFile: ‘dir’Size: 4096 Blocks: 8 IO Block: 4096 directory Device: f…

阅读更多...

杂谈k8s

杂谈k8s

其实看我之前的博客，k8s刚有点苗头的时候我就研究过，然后工作的时候间接接触也自己玩过但是用的不多就忘记了，正苦于不知道写什么，水一篇简化容器应用程序的部署和管理自动化部署、自动伸缩、负载均衡、存储管理、自我修复支…

阅读更多...

对系统管理员有用的 NMAP 命令

对系统管理员有用的 NMAP 命令

NMAP 是一个极其强大的网络扫描、监视和漏洞管理工具。 NMAP 命令的典型格式如下。 nmap -function --script脚本名称 <目标> 目标可以是主机 (192.168.0.1) 或网络 (192.168.0.0/24) 典型开放端口（服务）扫描 nmap -sV <目标> nmap -sV &…

阅读更多...

springboot日志文件不生产问题

springboot日志文件不生产问题

当指定了日志文件logback-spring.xml，发现项目启动的时候，不生产日志解决方案：在yml中指定本工程具体的日志文件 logging:config: classpath:logback-spring.xml如果还是不产生日志文件的话：指定磁盘上具体的目录即可&#xff…

阅读更多...

最新文章