PyTorch广告点击率预测(CTR)利用深度学习提升广告效果

目录

      • 广告点击率预测问题
      • 数据集结构
      • 广告点击率预测模型的构建
        • 1. 数据集准备
        • 2. 构建数据加载器
        • 3. 构建深度学习模型
        • 4. 训练与评估
      • 总结

广告点击率预测(CTR,Click-Through Rate Prediction)是在线广告领域中的重要任务,它帮助广告平台根据用户的兴趣预测广告的点击概率,从而提高广告投放的效果和广告商的收益。随着深度学习的快速发展,传统的广告点击率预测方法已逐渐被基于神经网络的模型所取代,深度学习在此领域的应用带来了显著的提升。

本文将通过实现一个简单的深度学习广告点击率预测模型,介绍如何利用PyTorch构建一个广告点击率预测系统。

广告点击率预测问题

广告点击率预测问题可以描述为:给定一组广告和用户的特征,预测用户点击该广告的概率。这类任务通常是一个二分类问题——用户点击广告与否,标签为1或0。

在广告点击率预测中,输入特征通常包括用户的历史行为、广告的特征(如广告类型、广告主题、展示位置等)以及用户的环境特征(如时间、设备等)。模型的任务是从这些特征中学习到有效的信息,并做出准确的预测。

数据集结构

为了实现广告点击率预测,我们假设数据集的结构如下:

用户ID广告ID时间戳用户年龄用户性别广告类型展示位置点击标签
110011609459200250视频首页1
210021609459260301图片侧边栏0
310031609459320220视频首页1
  • 用户ID:表示用户的唯一标识符。
  • 广告ID:表示广告的唯一标识符。
  • 时间戳:表示广告展示的时间。
  • 用户年龄:表示用户的年龄。
  • 用户性别:表示用户的性别,0为女性,1为男性。
  • 广告类型:表示广告的类型(如视频广告、图片广告等)。
  • 展示位置:表示广告展示的页面位置(如首页、侧边栏等)。
  • 点击标签:表示用户是否点击广告,1表示点击,0表示未点击。

在实际应用中,数据集会非常庞大,并且包含多种类型的特征。为了让模型能够处理这些特征,我们通常需要将分类特征(如性别、广告类型等)进行数值化或独热编码。

广告点击率预测模型的构建

1. 数据集准备

首先,我们需要一个包含广告和用户特征的数据集。这里我们假设数据集中包含多个特征列,最后一列为标签(点击与否)。我们将使用 pandas 来加载数据,利用 train_test_split 将数据分为训练集和测试集。

import pandas as pd
from sklearn.model_selection import train_test_split# 加载数据
def load_data(file_path):df = pd.read_csv(file_path)features = df.iloc[:, :-1].values  # 所有特征labels = df.iloc[:, -1].values     # 最后一列标签return features, labels
2. 构建数据加载器

我们使用PyTorch的 Dataset 类来构建自定义数据集,并利用 DataLoader 来批量加载数据。这样可以更高效地进行模型训练。

from torch.utils.data import Dataset, DataLoaderclass CTRDataset(Dataset):def __init__(self, features, labels):self.features = torch.tensor(features, dtype=torch.float32)self.labels = torch.tensor(labels, dtype=torch.float32)def __len__(self):return len(self.features)def __getitem__(self, idx):return self.features[idx], self.labels[idx]
3. 构建深度学习模型

在本例中,我们使用一个简单的多层感知机(MLP)模型。该模型由三个全连接层组成,通过ReLU激活函数进行非线性变换,最终输出一个介于0和1之间的概率值。

import torch.nn as nnclass CTRModel(nn.Module):def __init__(self, input_dim):super(CTRModel, self).__init__()self.fc1 = nn.Linear(input_dim, 128)  # 第一层self.fc2 = nn.Linear(128, 64)         # 第二层self.fc3 = nn.Linear(64, 1)           # 输出层self.sigmoid = nn.Sigmoid()           # 输出概率def forward(self, x):x = torch.relu(self.fc1(x))  # 激活函数 ReLUx = torch.relu(self.fc2(x))  # 激活函数 ReLUx = self.fc3(x)              # 输出层return self.sigmoid(x)       # 预测点击率概率
4. 训练与评估

我们使用二元交叉熵损失函数(BCELoss)和Adam优化器来训练模型。在每个epoch结束后,我们评估模型在测试集上的准确度。

import torch.optim as optim# 定义训练过程
def train(csv_file, num_epochs=10, lr=0.001):features, labels = load_data(csv_file)x_train, x_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)# 创建数据加载器train_dataset = CTRDataset(x_train, y_train)test_dataset = CTRDataset(x_test, y_test)train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)# 初始化模型、损失函数和优化器input_dim = features.shape[1]model = CTRModel(input_dim)criterion = nn.BCELoss()  # 二元交叉熵损失函数optimizer = optim.Adam(model.parameters(), lr)# 训练过程model.train()for epoch in range(num_epochs):running_loss = 0.0for inputs, labels in train_loader:optimizer.zero_grad()outputs = model(inputs).squeeze(1)loss = criterion(outputs, labels)loss.backward()optimizer.step()running_loss += loss.item()print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {running_loss/len(train_loader):.4f}')# 训练完成后,评估模型evaluate(model, test_loader)# 评估过程
def evaluate(model, val_loader):model.eval()  # 设置为评估模式correct = 0total = 0with torch.no_grad():for inputs, labels in val_loader:outputs = model(inputs).squeeze(1)predicted = (outputs >= 0.5).float()  # 将输出转化为0或1total += labels.size(0)correct += (predicted == labels).sum().item()accuracy = correct / totalprint(f'Accuracy: {accuracy:.4f}')

总结

通过这个简单的深度学习模型,我们实现了一个广告点击率预测系统。利用PyTorch,我们可以非常方便地构建神经网络模型,训练并进行评估。通过不断优化模型架构和特征工程,我们有可能进一步提升广告点击率的预测准确度。

随着广告行业的不断发展,点击率预测的需求将会越来越大,借助深度学习的强大能力,我们可以不断优化广告投放策略,达到更加精确的预测结果。希望本文的内容能为你搭建广告点击率预测系统提供帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/69189.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【信息系统项目管理师-选择真题】2017上半年综合知识答案和详解

更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 【第1题】【第2题】【第3题】【第4题】【第5题】【第6题】【第7~8题】【第9题】【第10题】【第11题】【第12题】【第13~14题】【第15题】【第16题】【第17题】【第18题】【第19题】【第20题】【第21题】【第22题…

Github 2025-01-25Rust开源项目日报Top10

根据Github Trendings的统计,今日(2025-01-25统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Rust项目10Python项目1Vue项目1JavaScript项目1Deno: 现代JavaScript和TypeScript运行时 创建周期:2118 天开发语言:Rust, JavaScript协议类型…

每日一题--合并二叉树

合并二叉树 问题描述 已知两颗二叉树,将它们合并成一颗二叉树。合并规则是:如果节点存在于两棵树中,则将节点值相加;如果某个节点在一棵树中不存在,则直接使用另一棵树的节点值。例如: 两颗二叉树如下&a…

云计算的概念与特点:开启数字化时代的新篇章

在当今数字化时代,云计算(Cloud Computing)已经成为推动技术创新和业务转型的核心力量。无论是大型企业、中小型企业,还是个人用户,云计算都为其提供了高效、灵活和经济的解决方案。本文将深入探讨云计算的概念及其核心特点,帮助读者全面了解这一革命性技术。 © ivw…

Arcgis国产化替代:Bigemap Pro正式发布

在数字化时代,数据如同新时代的石油,蕴含着巨大的价值。从商业决策到科研探索,从城市规划到环境监测,海量数据的高效处理、精准分析与直观可视化,已成为各行业突破发展瓶颈、实现转型升级的关键所在。历经十年精心打磨…

分布式机器学习中【拓扑】与【通信】的区别和联系

在分布式机器学习中,拓扑和通信是两个重要的概念,它们虽然有一定的关联,但侧重点不同。下面我会逐一解释它们的定义、区别及其联系: 1. 拓扑(Topology): 拓扑指的是系统中不同节点&#xff08…

【fly-iot飞凡物联】(20):2025年总体规划,把物联网整套技术方案和实现并落地,完成项目开发和课程录制。

前言 fly-iot飞凡物联专栏: https://blog.csdn.net/freewebsys/category_12219758.html 1,开源项目地址进行项目开发 https://gitee.com/fly-iot/fly-iot-platform 完成项目开发,接口开发。 把相关内容总结成文档,并录制课程。…

MFC结构体数据文件读写实例

程序功能将结构体内数组数据写入文件和读出 2Dlg.h中代码: typedef struct Student {int nNum[1000];float fScore;CString sss;}stu; class CMy2Dlg : public CDialog { // Construction public:CMy2Dlg(CWnd* pParent NULL); // standard constructorstu stu1; ... } 2Dl…

rust 自定义错误(十二)

错误定义: let file_content parse_file("test.txt");if let Err(e) file_content {println!("Error: {:?}", e);}let file_content parse_file2("test.txt");if let Err(e) file_content {match e {ParseFileError::File > …

java+vue项目部署记录

目录 前言 一、java和vue 二、部署记录 1.获取代码 2.运行前端 3.运行后端 三、其他 1.nvm 总结 前言 近期工作需要部署一套javavue前后分离的项目,之前都略有接触,但属于不及皮毛的程度,好在对其他开发语言、html js这些还算熟&am…

零售业革命:改变行业的顶级物联网用例

mpro5 产品负责人Ruby Whipp表示,技术进步持续重塑零售业,其中物联网(IoT)正引领这一变革潮流。 研究表明,零售商们正在采用物联网解决方案,以提升运营效率并改善顾客体验。这些技术能够监控运营的各个方面…

(一)QT的简介与环境配置WIN11

目录 一、QT的概述 二、QT的下载 三、简单编程 常用快捷键 一、QT的概述 简介 Qt(发音:[kjuːt],类似“cute”)是一个跨平台的开发库,主要用于开发图形用户界面(GUI)应用程序,…

MySQL用户授权、收回权限与查看权限

【图书推荐】《MySQL 9从入门到性能优化(视频教学版)》-CSDN博客 《MySQL 9从入门到性能优化(视频教学版)(数据库技术丛书)》(王英英)【摘要 书评 试读】- 京东图书 (jd.com) MySQL9数据库技术_夏天又到了…

spring boot中使用spring-security案例

项目结构 src └── main ├── java │ └── com.example.securitydemo │ ├── RestapiApplication.java │ ├── config │ │ └── SecurityConfig.java │ ├── controller │ │ └── UserController.java │ └── service │ └── CustomUserDetailsS…

XML实体注入漏洞攻与防

JAVA中的XXE攻防 回显型 无回显型 cve-2014-3574

996引擎 - NPC-添加NPC引擎自带形象

996引擎 - NPC-添加NPC引擎自带形象 截图参考添加NPC参考资料截图参考 添加NPC 编辑NPC表:Envir\DATA\cfg_npclist.xls 1.1. 需要临时隐藏NPC时可以在id前加 // 1.2. 如果NPC朝向不对,可以调整dir 列。(按8方向,上是0顺时针数。我这里给的4) 1.3. 形象代码:NPC代码、怪物…

mysql create table的用法

在MySQL中创建表的基本语法如下: CREATE TABLE table_name (column1 datatype,column2 datatype,column3 datatype,... );这里是一个例子,假设我们要创建一个名为employees的表,包含以下字段: id:一个整数类型的主键…

云计算架构学习之LNMP架构部署、架构拆分、负载均衡-会话保持

一.LNMP架构部署 1.1. LNMP服务搭建 1.磁盘信息 2.内存 3.负载信息 4.Nginx你们公司都用来干嘛 5.文件句柄(文件描述符 打开文件最大数量) 6.你处理过系统中的漏洞吗 SSH漏洞 7.你写过什么shell脚本 8.监控通过什么告警 zabbix 具体监控哪些内容 9.mysql redis查询 你好H…

页高速缓存与缓冲区缓存的应用差异

页高速缓存(Page Cache)与缓冲区缓存(Buffer Cache)是计算机系统中用于提高数据访问性能的两种不同类型的缓存机制,它们的差异主要体现在以下几个方面: 缓存目的 页高速缓存:主要用于加速对磁…

C语言程序设计:算法程序的灵魂

文章目录 C语言程序设计:算法程序的灵魂算法数据结构程序数据结构算法数值运算算法非数值运算算法 简单的算法举例【例2.1】求12345【例2.2】有50个学生,要求输出成绩在80分以上的学生的学号和成绩 简单的算法举例【例2.3】判定2000—2500年中的每一年是…