【经典论文阅读11】ESMM模型——基于贝叶斯公式的CVR预估

传统的CVR模型(也就是直接对conversion rate建模的模型)在实际应用中面临两个问题(样本选择偏差与数据稀疏性问题)。为了解决这两个问题,本文提出ESMM模型。该模型巧妙地利用用户行为序列去建模这个问题,从而证明(在淘宝的业务场景下)对Post-click conversion Rate 非常有帮助。其实,其实的真实思想就是基于贝叶斯公式去预估CVR。

在这里插入图片描述

1. 摘要

1.1. 问题

  • 选择偏差问题(sample selection bias):之前的cvr模型在训练的时候是在有点的数据集上训练,但是推理(真实场景应用的时候)是在整个空间(不知道这个广告会不会被点,也不知道这个商品会不会被点击)这个问题很常见
    在这里插入图片描述

  • 数据稀疏性(data sparsity)问题:让模型难以训练。

    • 与CTR相比,CVR的数据要少的多,所以训练CVR的模型相比有些困难。
      • CVR的数据量要比CTR的数据少1~3个数据级;
      • CVR的训练数据量大概只有CTR的4%。
    • 哪里的数据稀疏?为什么稀疏?
  • delayed feedback 问题
    这个问题也是CVR这个模型面临的问题,但是本文不再关注。

1.2. 解决方法

提出使用一种新的建模方法对CVR进行建模。这种建模方法模拟了用户的行为顺序模式,也就是:impression →click →conversion (展现、点击、转化),这里的转化指的就是购买、付费等行为。方法具体包括:

  • (1)在整个样本空间建模
  • (2)采用特征迁移策略(employing a feature representation transfer learning strategy)

2. Introduction

Introduction就是字数扩大版的摘要。

2.1. 介绍CVR这个任务

文章第一段、第二段在介绍CVR这个任务

CVR预估是排序系统中一个非常基础的工作,在在线广告、推荐系统中都非常重要。
CVR 建模指的就是:pCVR = p(conversion|click,impression)

2.2. 现存的问题

  • SSB问题
  • DS问题

2.3. 尝试的解法

这里不再啰嗦。

2.4. 提出的模型

提出ESMM 模型,这个模型包括:

  • 两个辅助任务:post-view click-through rate(CTR) + post-view click-through&conversion rate(CTCVR)
  • pCTCVR = pCTR * pCVRpCTCVRpCTR 都是在整个样本空间下进行估计。所以就缓解了SSB问题。
  • CVR网络的特征表示和CTR网络是共享,而CTR网络是在整个样本空间下训练的,所以就缓解了DS问题。

3. Method

pCVR 这个任务其实就是计算 p(z = 1|y=1, x),其中x是展现物品的特征向量表示,y=1表示有点击,z=1表示有转化(如购买、付费)

二者的递推关系式子:
在这里插入图片描述

3.1. 模型结构

模型结构,如下图所示:
在这里插入图片描述

  • 模型输入:~
  • 模型输出:在给出一个展现的前提下,输出pCTR, pCVR, pCTCVR。

3.2. 损失函数

只使用CTR and CTCVR 任务计算损失,在整个展现样本的空间下计算,没有使用CVR这个任务的损失。
在这里插入图片描述
使用的是交叉熵损失函数。

4. 数据实验

4.1. 数据集分布统计

在这里插入图片描述

4.2. 实验效果

  • 使用AUC指标,理解一下AUC指标是什么含义。
    在这里插入图片描述

5. 问题

5.1. pCVR 中的p是什么意思?

一定要意识到这个p代表的是post-click,否则直接说是CVR 不就得了?

5.2 模型的输入是什么?

Q:模型具体的输入是什么?也就是对应图中的user fileditem filed 分别可以是什么样的数据呢?能举个例子吗?

A:【TODO】可以从下面这个链接中访问作者给出的公开数据集:https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408

5.3 跑一下模型【TODO】

5.4 SSB 问题的理解

在这里插入图片描述

6. 英语借鉴

  • borrowing the idea from multi-task learning… 从多任务学习借鉴方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/56983.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决SpringBoot项目启动错误:找不到或无法加载主类

如何解决SpringBoot项目的“找不到或无法加载主类”启动错误 在开发SpringBoot应用时,经常可能会遇到一个启动错误:“错误:找不到或无法加载主类 com.example.controller.demo.DemoApplication”。本文将介绍三种解决这一问题的方法。 方法…

微信小程序中点击搜素按钮没有反应,可能是样式问题(按钮被其他元素覆盖或遮挡)

文章目录 1. 确认 bindtap 绑定在正确的元素上2. 检查是否有遮挡或重叠元素3. 检查 this 上下文绑定问题4. 清除微信小程序开发者工具的缓存5. 用微信开发者工具查看事件绑定6. 确保 handleSearch 没有拼写错误进一步调试 1、searchResults.wxml2、searchResults.wxss3、search…

偷懒总结篇|贪心算法|动态规划|单调栈|图论

由于这周来不及了,先过一遍后面的思路,具体实现等下周再开始详细写。 贪心算法 这个图非常好 122.买卖股票的最佳时机 II(妙,拆分利润) 把利润分解为每天为单位的维度,需要收集每天的正利润就可以,收集正利润的区间…

[C高手编程] 进程编程与IPC

💖💖⚡️⚡️专栏:C高手编程-面试宝典/技术手册/高手进阶⚡️⚡️💖💖 「C高手编程」专栏融合了作者十多年的C语言开发经验,汇集了从基础到进阶的关键知识点,是不可多得的知识宝典。如果你是即将…

基于SSM+小程序的旅游社交登录管理系统(旅游4)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 ​ 本旅游社交小程序功能有管理员和用户。管理员有个人中心,用户管理,每日签到管理,景点推荐管理,景点分类管理,防疫查询管理&a…

k8s 二进制部署安装(一)

目录 环境准备 初始化操作系统 部署docker 引擎 部署 etcd 集群 准备签发证书环境 部署 Master01 服务器相关组件 apiserver scheduler controller-manager.sh admin etcd 存储了 Kubernetes 集群的所有配置数据和状态信息,包括资源对象、集群配置、元数据…

阿里云镜像源无法访问?使用 DaoCloud 镜像源加速 Docker 下载(Linux 和 Windows 配置指南)

🚀 作者主页: 有来技术 🔥 开源项目: youlai-mall 🍃 vue3-element-admin 🍃 youlai-boot 🍃 vue-uniapp-template 🌺 仓库主页: GitCode💫 Gitee &#x1f…

银河麒麟V10系统下libopenblas.so.0和libllmlmf库的安装

1、当前linux服务器系统是银河麒麟V10,具体的内核和cpu型号如下: 2、使用:uname -a来进行查询 Linux localhost.localdomain 4.19.90-89.16.v2401.ky10.x86_64 #1 SMP Sat Sep 14 13:09:47 CST 2024 x86_64 x86_64 x86_64 GNU/Linux 3、在部署QT开发的应…

高清 MV 无字幕视频素材

在当下的短视频和自媒体时代,高清无字幕的视频素材无疑是创作者们的“得力助手”。不管是用于剪辑情感励志视频、制作搞笑段子,还是创作风景航拍视频,优质的素材库都能让你的创作如虎添翼。今天,我就为大家介绍几个海外的高质量素…

如何使用Qlik Sense Util

Qlik Sense Util 是 Qlik Sense 的一个实用工具,它可以帮助管理员执行各种配置和维护任务。 以下是使用 Qlik Sense Util 工具的一些基本步骤: 1. **运行 QlikSenseUtil.exe**: - 在中心节点上,打开文件资源管理器并导航到 C:…

服务器作业2

架设一台NFS服务器,并按照以下要求配置 关闭防火墙 [rootlocalhost ~]# systemctl stop firewalld [rootlocalhost ~]# setenforce 0 配置文件设置: [rootlocalhost ~]# vim /etc/exports 1、开放/nfs/shared目录,供所有用户查询资料 共享…

Scott Brinker:Martech App 的未来在中小企业和中端市场

中端市场营销支出增加 Product Hunt网站上每周发布的与营销技术相关的产品数量和TechCrunch网站上发布的新融资公告数量持续增加。最近,很多公司都在借助OpenAI、Azure和AWS的新API,赶上生成式人工智能的浪潮。可以肯定的是,有很多重复的想法…

IDEA集成AI的DevAssist插件使用指南

DevAssit使用背景,这类工具通常旨在帮助开发者提高效率,简化开发流程。这类工具包括但不限于: 代码编辑器插件:提供自动补全、代码提示等功能。 构建工具:帮助自动化构建过程。 调试工具:提供更强大的调试功…

anaconda 创建环境失败 解决指南

anaconda 创建环境失败 解决指南 一、问题描述 我在宿舍有一台电脑。由于我经常泡在实验室,所以那台电脑不是经常用,基本吃灰。昨天晚上突然有在那台电脑上使用Camel-AI部署多智能体协同需求,便戳开了电脑,问题也随之而来。 当…

河北统计年鉴(2000-2021年)

《河北统计年鉴》不仅记录了河北省经济社会发展的历史轨迹,还系统地展示了其现状。它涵盖了经济发展、人口就业、社会事业、居民生活、环境保护等多个领域的数据资料 2000-2021年河北统计年鉴数据整理资源-CSDN文库https://download.csdn.net/download/2401_845856…

创建和管理IPAM

IPAM(IP Address Manager)为用户提供全局地址管理的能力。创建IPAM后,您可以在IPAM中创建私网作用范围。每个私网作用范围都代表一个独立的地址作用域,在私网作用范围中可以创建地址池来管理和分配IP地址资源。本文为您介绍如何创…

esp32学习:语音识别教程esp-skainet库的使用

乐鑫推出了基于esp_sr算法的语音识别应用esp-skainet。官方介绍:ESP-Skainet 以最便捷的方式支持基于乐鑫的 ESP32系列 芯片的唤醒词识别和命令词识别应用程序的开发。使用 ESP-Skainet,您可以轻松构建唤醒词识别和命令词识别应用程序。 支持的主要功能…

模拟信号采集显示器+GPS同步信号发生器制作全过程(焊接、问题、代码、电路)

1、制作最小系统板 在制作最小系统板的时候,要用USB转TTL给板子供电,留了一个电源输入的四个接口,同时又用排针引出来VCC和GND用于后续其他外设的电源供应,电源配有电源指示灯和保护电容, 当时在焊接的时候把接口处的…

首席数据官和首席数据分析官

根据分析人士的预测,首席数据官(CDO)和首席数据分析官(CDAO)必须更有效地展示他们对企业和AI项目的价值,以保障其在高管层的地位。Gartner的最新报告指出,CDO和CDAO在AI时代需要重新塑造自身定位…

Python毕业设计选题:基于Django+Vue的图书馆管理系统

开发语言:Python框架:djangoPython版本:python3.7.7数据库:mysql 5.7数据库工具:Navicat11开发软件:PyCharm 系统展示 系统首页 图书馆界面 图书信息界面 个人中心界面 后台登录界面 管理员功能界面 用户…