特征交叉系列:FM和深度神经网络的结合,DeepFM原理简述和实践

从FM,FFM到DeepFM

在上两节中介绍了FM和FFM

这两种算法是推荐算法中经典的特征交叉结构,FM将特征交叉分解到底层属性,通过底层属性的点乘来刻画特征交叉的计算,而FFM引入特征域的概念,对不同的特征对所引用的底层属性进行隔离,避免导致多重特征交叉下,底层属性表征产生互相拉扯,导致表达矛盾。

在深度学习时代之前,FM结构是主流的推荐算法,而随着深度学习的到来,FM逐渐和DNN深度神经网络进行结合,即期望构建模型既可以拥有FM的二阶特征交互的学习能力,也能够像DNN那样能够学习特征间高阶的复杂关系,其中DeepFM是最经典的FM和DNN结合的例子。

DeepFM提出于2017年,由于网络中只有FM和简单DNN,因此易于快速实现作为业务场景的一个Baseline。


DeepFM网络结构解析

DeepFM的网络结构如下

DeepFM模型结构

模型结构中左侧部分是FM,右侧部分是DNN,底层的输入从一个业务特征Field转化为稀疏onehot的Sparse Feature特征,模型的前馈传播有三块计算网络:

    1. Sparse Feature特征直接进入左侧FM的一阶线性层,完成一个wx+b的操作返回一阶的结果,只有Sparse Feature有值的位置才会进行权重加和
    1. Sparse Feature特征进入Dense Embedding层进行稠密向量映射,映射后进入左侧FM,映射的结果作为FM的隐向量进行点乘操作得到FM的二阶输出
  • 3.Sparse Feature特征进入Dense Embedding层进行稠密向量映射,映射后进入右侧DNN,所有Field的映射结果进行拼接作为DNN的输入,经过2层DNN隐藏层输出结果

最终DeepFM的结果是三个计算流程的相加组合,注意FM的二阶和DNN的底层输入是共享的,共用了Dense Embedding层的结果,因此隐藏层的学习不仅要考虑适配FM的交叉,也要适配DNN的高阶复杂关系学习。


DeepFM在PyTorch下的实践

本次实践的数据集和上一篇[特征交叉系列:完全理解FM因子分解机原理和代码实战]一致,采用用户的购买记录流水作为训练数据,用户侧特征是年龄,性别,会员年限等离散特征,商品侧特征采用商品的二级类目,产地,品牌三个离散特征,随机构造负样本,一共有10个特征域,全部是离散特征,对于枚举值过多的特征采用hash分箱,得到一共72个特征。
PyTorch代码实现如下

import torch
import torch.nn as nn
from torch.utils.data import DataLoader, random_split, TensorDatasetclass Linear(nn.Module):def __init__(self, feat_num):super(Linear, self).__init__()self.embedding = nn.Embedding(feat_num, 1)self.bias = nn.Parameter(torch.zeros(1))nn.init.xavier_normal_(self.embedding.weight.data)def forward(self, x):# [None, field_dim] => [None, field, 1] => [None, 1]out = self.embedding(x).sum(dim=1) + self.biasreturn outclass Embedding(nn.Module):def __init__(self, feat_num, k_dim):super(Embedding, self).__init__()self.embedding = nn.Embedding(feat_num, k_dim)nn.init.xavier_uniform_(self.embedding.weight.data)def forward(self, x):return self.embedding(x)class FM(nn.Module):def __init__(self):super(FM, self).__init__()def forward(self, x):square_of_sum = torch.sum(x, dim=1) ** 2sum_of_square = torch.sum(x ** 2, dim=1)ix = square_of_sum - sum_of_square# [None, 1]out = 0.5 * torch.sum(ix, dim=1, keepdim=True)return outclass DNN(nn.Module):def __init__(self, input_dim, fc_dims=(64, 16), dropout=0.1):super(DNN, self).__init__()layers = list()for fc_dim in fc_dims:layers.append(nn.Linear(input_dim, fc_dim))layers.append(nn.BatchNorm1d(fc_dim))layers.append(nn.ReLU())layers.append(nn.Dropout(p=dropout))input_dim = fc_dimlayers.append(nn.Linear(input_dim, 1))self.mlp = torch.nn.Sequential(*layers)def forward(self, x):return self.mlp(x)class Model(nn.Module):def __init__(self, field_num, feat_num, k_dim, fc_dims=(64, 16), dropout=0.1):super(Model, self).__init__()self.linear = Linear(feat_num=feat_num)self.embedding = Embedding(feat_num, k_dim)self.fm = FM()self.fc_input_dim = field_num * k_dimself.dnn = DNN(self.fc_input_dim, fc_dims, dropout)def forward(self, x):linear_out = self.linear(x)# [None, feat_size, k_dim]emb = self.embedding(x)fm_out = self.fm(emb)dnn_out = self.dnn(torch.reshape(emb, [-1, self.fc_input_dim]))out = torch.sigmoid(linear_out + fm_out + dnn_out)return out.squeeze(dim=1)

本例全部是离散分箱变量,所有有值的特征都是1,因此只要输入有值位置的索引即可,一条输入例如

>>> train_data[0]
Out[120]: (tensor([ 2, 10, 14, 18, 34, 39, 47, 51, 58, 64]), tensor(0))

其中x的长度10代表10个特征域,每个域的值是特征的全局位置索引,从0到71,一共72个特征。其中FM和DNN共用了Embedding对象。


DeepFM和FM,FFM模型效果对比

采用验证集的10次AUC不上升作为早停,FM,FFM,DeepFM的平均验证集AUC如下

FMFFMDeepFM
AUC0.6260.6300.631

DeepFM相比FM增加了DNN结构,AUC提升了0.5个百分点较为明显,而对比FFM,DeepFM也有略微提升,提升0.1个百分点。

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

五、面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/22824.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

React中实现大模型的打字机效果

React 想实现一个打字机的效果,类似千问、Kimi 返回的效果。调用大模型时,模型的回答通常是流式输出的,如果等到模型所有的回答全部完成之后再展示给最终用户,交互效果不好,因为模型计算推理时间比较长。本文将采用原生…

SD3303A 大功率高亮度LED驱动芯片IC

一般描述 SD3303A是一款大功率高亮度LED驱动芯片,可以提供1A的电流驱动3W的LED。具有高效率,低功耗等特点,适用于电池供电的LED照明设备。 SD3303A具有开路保护和过温保护。 SD3303A需要使用两颗10uF(或者更大)的瓷片电容,来保…

AI大模型+产品经理:打造智能产品的黄金组合

前言 当我们谈论AI大模型与产品经理的结合,不仅仅是技术与创意的碰撞,更是对未来智能生活的期待。想象一下,当产品的灵魂被注入智能的血液,它们将成为我们生活中不可或缺的伙伴。 我们不仅仅是要探索AI大模型的深层技术&#xf…

深度缓冲技术在AI绘画中的魔法

随着人工智能技术的飞速发展,AI绘画已经成为艺术创作领域中的一个热门话题。从数字滤镜到复杂的图像生成算法,AI绘画正以前所未有的方式拓展着艺术的边界。在这个过程中,深度缓冲技术扮演了一个不可或缺的角色,它不仅提升了AI绘画…

103、python-第三阶段-13-大数据分布式集群运行

hadoop集群 4个多G的数据在集群中用了2.9分钟,如果在一个机器上运行大概需要十几分钟,所以集群速度还是很快的。

美国年轻人热衷床上“摆烂”,沃尔玛发掘床上用品新商机!

美国年轻人近年来热衷于床上“摆烂”生活方式,这反映了他们对舒适放松的追求和现代生活的压力。沃尔玛作为零售业巨头,敏锐地捕捉到这一市场变化,发现了床上用品的新商机。 美国年轻人忙碌中渴望宁静空间。床成为他们放松、逃离现实压力的理想…

PPT的文件怎么做二维码?适合多种文件使用的二维码制作技巧

现在很多人会将ppt文件转换成二维码之后,分享给其他人查看,比如常见的有学习资料、作品展示、个人简历、方案计划等内容都可以通过生成二维码的方式来提供展示。通过手机扫码就能够快速预览文件内容,与使用邮箱或网盘传输相比,更加…

电器公司2套PROE如何满足20人使用?

电器公司的日常运营高度依赖于各类软件工具,其中PROE作为广泛应用于产品设计领域的软件,在电器厂公司的生产流程中扮演着举足轻重的角色。如何合理配置和管理PROE软件资源,以满足20人同时使用的需求,是许多电器厂公司面临的实际问…

Hadoop3:MapReduce之MapTask的FileInputFormat的切片原理解读(2)

Job那块的断点代码截图省略,直接进入切片逻辑 参考:Hadoop3:MapReduce之MapTask的Job任务提交流程原理解读(1) 4、FileInputFormat切片源码解析 切片入口 获取切片数 获取最大和最小切片数 判断文件是否可以切片&…

PHP实现抖音小程序用户登录获取openid

目录 第一步、抖音小程序前端使用tt.login获取code 第二步、前端拿到code传给后端 第三步、方法1 后端获取用户信息 第四步、方法2 抖音小程序拿到用户信息把用户信息传给后端 code2Session抖音小程序用户登录后端文档 第一步、抖音小程序前端使用tt.login获取code 前端 …

“Apache Kylin 实战指南:从安装到高级优化的全面教程

Apache Kylin是一个开源的分布式分析引擎,它提供了在Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力,支持超大规模数据的亚秒级查询。以下是Kylin的入门教程,帮助您快速上手并使用这个强大的工具。 1. 安装Kylin Apache Kylin的安装是一个关键步骤,它要求您具备一…

linux--------线程的同步和互斥

前言 提示:以下是本篇文章正文内容,下面案例可供参考 一、线程互斥 (1)互斥: 任何时刻,互斥保证有且只有一个执行流进入临界区,访问临界资源,通常对临界资源起保护作用 要了解互…

XStream反序列化

XStream反序列化 前言基础重要组件MarshallingStrategy编码策略两个重要类 MapperConverterDynamicProxyConverter XStream编组/解组具体过程测试代码fromXML解组toXML编组总结 XStream漏洞漏洞原理sorted-set触发环境和版本限制复现调试分析总结各种版本<1.3.11.4-1.4.41.4…

SD6210A 低噪声可调电荷泵DC/DC转换器芯片IC

一般描述 该SD6210A是一种低噪声&#xff0c;恒定频率(1.20MHz)开关电容电压倍增器。它产生一个调节输出电压从2.8V到5V的输入与高达250mA的输出电流。低外部零件数(一个飞行电容器和两个小旁路电容的VIN和VOUT)使SD6210A非常适合小型&#xff0c;电池供电的应用新的电荷…

Java面试题:解决Redis缓存击穿问题

缓存击穿 当一个key过期时,需要对这个key进行数据重建 在重建的时间内如果有大量的并发请求进入,就会绕过缓存进入数据库,会瞬间击垮DB 重建时间可能因为数据是多个表的混合结果需要分头统计而延长,从而更容易出现缓存击穿问题 缓存击穿的解决方案 添加互斥锁 先查询缓存…

Excel 每 N 行拼成一行

F列每四行对应一条记录&#xff1a; ABCDEF1NameAddressCityShort IDCompany 122222 al street3Blue cheese415Company 261111 arm rd7Ranch829Company 3103333 raindrop drive11Peanut123 需要把F列整理成规范表格&#xff0c;按行写入A-D&#xff1a; ABCDEF1NameAddressC…

Coolmuster iOS 数据擦除:隐私保护的终极方案

手机和平板电脑是我们不可或缺的伙伴&#xff0c;它们存储着我们的照片、联系人、私人消息以及工作文件。然而&#xff0c;当这些设备需要更换或者出售时&#xff0c;如何确保存储在其中的数据不被他人恢复和滥用&#xff0c;成为了一个严峻的问题。Coolmuster iOS 数据擦除&am…

Java(十)——内部类

文章目录 内部类静态内部类实例内部类匿名内部类局部内部类 内部类 Java内部类是一种特殊的类定义方式&#xff0c;它允许在一个类的内部定义另一个类。 内部类可以访问其所在外部类的成员变量和成员方法&#xff0c;这使得它非常适用于封装与外部类紧密相关的私有逻辑。 内…

地理加权回归GWR简介

地理加权回归GWR简介 一、定义&#xff1a; 地理加权回归&#xff08;Geographically Weighted Regression&#xff0c;简称GWR&#xff09;是一种空间数据分析方法&#xff0c;专门用于处理空间异质性&#xff08;spatial heterogeneity&#xff09;问题。以下是对GWR的详细简…

MOE原理解释及从零实现一个MOE(专家混合模型)

什么是混合模型&#xff08;MOE&#xff09; 一个MOE主要由两个关键点组成&#xff1a; 一是将传统Transformer中的FFN&#xff08;前馈网络层&#xff09;替换为多个稀疏的专家层&#xff08;Sparse MoE layers&#xff09;。每个专家本身是一个独立的神经网络&#xff0c;实…