机器学习算法的电影推荐系统以及票房预测系统

一、实验概述

1. 实验目标

本项目希望基于电影数据集,依据电影的简介、关键词、预算、票房、用户评分等特征来对电影进行分析,并完成以下任务:

  • 对电影特征的可视化分析
  • 对电影票房的预测
  • 多功能个性化的电影推荐算法

2. 数据集

  • 针对票房预测部分,本项目使用了收集自 The Movie Database(TMDB)数据集的7398条电影信息, 包含了id、预算、电影主页、票房、语言、时长、评分、受欢迎度等特征,全部数据可见于Kaggle TMDB Box Office Prediction中。
  • 针对电影推荐部分,本项目使用了收集自 The Movie Database(TMDB)数据集的TMDB5000数据集以及收集自电影数据集MovieLens的部分数据,包含了id、预算、内容简介、关键词等特征,并且包含了用户对电影的评分矩阵,全部数据可见于LJSthu(github)中。

3. 实验完成情况

  • 完成了对电影特征的可视化分析。
  • 完成了基于电影特征的电影票房预测算法,并在Kaggle的TMDB Box Office Prediction比赛中最终取得了前 6.8%(95/1400)的成绩。
  • 完成了基于简单特征(内容、评分、关键词)的三种推荐算法、基于KNN的两种协同过滤算法、基于奇异值分解的推荐算法以及三种集成推荐算法,共设计并实现了九种电影推荐算法。

二、电影特征的可视化分析

本项目中,我首先对电影数据的一些特征进行了可视化分析,来为之后的票房预测和电影推荐做帮助。

  • 首先我分别绘制了票房与预算、欢迎程度(popularity)、戏剧性程度(theatrical)的关系图,如下图所示: 

     

  • 从图中可以看出,这三个特征与票房之间存在着比较强的相关关系,于是我选取了票房、预算、受欢迎程度、戏剧性、放映时间、id、上映年份7个特征,绘制了它们之间的相关关系图,如下图所示: 

  • 图中颜色越深代表相关关系越强,可以看出电影票房与预算、受欢迎程度、戏剧性三个特征有着很强的相关关系,而与上映时间、id等信息几乎没有相关关系,这也十分符合我们的预期。

  • 我还研究了电影语言与票房的关系,如下图所示: 

  • 最后我探究了电影预算与电影上映年份之间的关系,为了突出区别,我选取了1983、1984、1985、1991、2017五个年份的电影预算来进行密度估计,结果如图所示: 

  • 从图中可以看出上映年份对预算的分布影响比较大,较早的年份预算集中于比较低的部分,而越靠近现在,电影的预算分布相对越均匀,对应着越来越多的大制作电影,这里我认为上映年份这个特征对票房的影响主要是通过对预算的影响来体现的。

  • 备注:这部分代码参见上传项目

三、电影票房预测

1. Data Augmentation

  • 首先我对提供的数据进行了处理与清洗
  • 加入了一些额外的电影数据,包括电影上映日期、评分、受欢迎度等(全部使用的数据集参见项目代码)
  • 最终使用的特征包括了电影名称、发行公司、受欢迎程度、戏剧性程度、评分人数、评分、放映时长、预算等。
  • 对全部数据进行5折划分来进行5-折交叉验证。

2. 算法说明

  • 本次比赛中我主要使用了三种算法来进行预测,分别为catboost、XGBoost、LightGBM
  • 最终的结果为这三种算法的指数加权平均
2.1 XGBoost
  • 首先尝试了使用XGBoost算法来进行预测
  • 常用算法便不描述具体过程了
2.2 lightGBM
  • 在XGBoost的基础上,lightGBM使用了histogram算法,同时优化了对类别特征的支持,可以进行分布式训练,极大的提升了训练速度。相比于XGBoost, 在准确率相近的情况下,速度大大加快。
2.3 CatBoost
  • CatBoost中使用了梯度提升(Gradient Boost)与类别型特征(Categorical Features),基于梯度提升决策树。
  • 使用对称树结构来避免过拟合问题,并且用特殊的方式处理categorical features。
  • 算法的总流程伪代码如下所示(使用原论文中的伪代码) 

3. 实验结果

  • 最终我将三个模型的输出进行了指数加权,即最终的输出为:

  • 最终的排名为95/1400(top 7%) 

四、电影推荐算法

这里将分别介绍我实现的九种电影推荐算法。

1. 基于人口统计学的推荐

  • 这里我实现了一个基于评分的推荐算法,对每部电影计算评分如下:
  • 算法为用户推荐评分最高的10部电影。
结果示例:
title       									score
The Shawshank Redemption          				8.059258
Fight Club          							7.939256
The Dark Knight         						7.920020
Pulp Fiction          							7.904645
Inception         								7.863239
The Godfather          							7.851236
Interstellar         							7.809479
Forrest Gump         							7.803188
The Lord of the Rings: The Return of the King   7.727243
The Empire Strikes Back          				7.697884

2. 基于内容的推荐算法

  • 这里我实现了两种简单的推荐算法,相关代码参见代码
(1)基于电影简介文本的推荐算法
  • 首先将电影数据中的简介文本通过sklearn中的TfidfVectorizer,将简介文本变成向量,并使用cosine距离来度量向量之间的相似度。
  • 用户输入一个电影名字,算法推荐与之最相近的10部电影。
结果示例:
- 输入: The Dark Knight Rises
- 输出: The Dark Knight					Batman ForeverBatman ReturnsBatmanBatman: The Dark Knight Returns, Part 2Batman BeginsSlow BurnBatman v Superman: Dawn of JusticeJFKBatman & Robin
  • 从结果可以看出,推荐的电影内容与输入电影十分相近,符合算法设计的初衷。
(2)基于电影内容的推荐算法
  • 这里我利用了电影中的关键词、类型、导演、演员等信息
  • 首先使用sklearn中的CountVectorizer将文本转换为词频矩阵,之后利用cosine距离来度量电影之间的相似度,与(1)算法很类似。
  • 用户输入一个电影名字,算法推荐与之最相近的10部电影。
结果示例:
- 输入: The Dark Knight Rises
- 输出: The Dark KnightBatman BeginsAmidst the Devil's WingsThe PrestigeRomeo Is BleedingBlack NovemberTakersFasterCatwomanGangster Squad

3. 基于KNN的协同过滤算法

  • 这里我实现了两种基于KNN的协同过滤算法,代码可见
  • 这里我使用了MovieLen数据集中的用户对电影的评分矩阵
(1)针对电影相似度的推荐算法
  • 这里我将全部的用户对某一电影的评分作为该电影的特征向量,使用KNN算法,对于用户输入的电影,选出与之最相似的十部电影进行推荐
结果示例:
- 输入: Avengers: Infinity War - Part I (2018)
- 输出: Thor: Ragnarok (2017)Captain America: Civil War (2016)Deadpool 2 (2018)Doctor Strange (2016)Guardians of the Galaxy 2 (2017)Iron Man (2008)Untitled Spider-Man Reboot (2017)Avengers, The (2012)Inception (2010)Logan (2017)
  • 可以看到,输入的电影为《复仇者联盟三》,推荐的十部电影中有九部为漫威出品的超级英雄电影,另外一部也是科幻大片,可见这种衡量电影之间相似性的方法是十分有效的。
(2)针对用户相似度的推荐算法
  • 之前的推荐算法大多基于电影之间的相似度来进行推荐,但对于不同的用户,推荐的结果并没有任何不同,没有实现对于不同用户的个性化推荐,当前的算法就是为了解决这样的问题。
  • 这里我将一个用户对于全部电影的评分作为该用户的特征向量,使用KNN算法,对于输入的用户ID
    • 首先选出10个与当前用户最相似的10个用户
    • 之后选出这10个最相似用户看过的且当前用户没有看过的电影
    • 最后在这些电影中选择出 平均评分最高的十部,推荐给用户
结果示例:
- 输入:用户id=2
- 输出: Forrest Gump (1994)Pulp Fiction (1994)Silence of the Lambs, The (1991)Matrix, The (1999)Donnie Darko (2001)- 输入:用户id=6
- 输出: Beverly Hills Cop III (1994)Demolition Man (1993)Quiz Show (1994)Drop Zone (1994)Home Alone (1990)
  • 可以看到对于不同的用户,得到的推荐结果是互不相同的,做到了对用户个性化的推荐。
  • 测试结果
    • 我将用户评分矩阵的85%用来训练,15%用作测试,具体划分方法为:对每个用户对每个电影的评分,生成一个随机数,若大于0.85,则为测试;小于等于0.85,则为训练
    • 使用本方法对每个用户推荐了10部电影,总共推荐了6040部电影,其中出现在测试集中的电影数目为878部,占14.54%

4. 基于奇异值分解的推荐算法

  • 这里我实现了基于SVD分解的推荐算法,通过对用户-电影评分矩阵进行SVD分解,对用户未评分的电影预测评分。
  • 这里我主要希望将这个算法作为一个二级筛选方法,即对于输入的用户id与一系列电影id,去预测出当前用户对于这一系列电影的评分,从中挑选出评分最高的10部进行推荐。
  • 由于用户-电影评分矩阵是维度很高的系数矩阵,于是我使用了不同的算法来进行分解,包含了
    • 随机梯度下降算法(SGD)
    • 朗之万动态系统随机梯度方法(SGLD)
    • 随机梯度哈密顿蒙特卡洛方法(SGHMC)
  • 其中SGD为基于优化的方法,而SGLD与SGHMC为基于采样的贝叶斯概率矩阵分解算法。我在movielen数据集的mk-1m中进行了5-折交叉验证,最后的结果如图所示: 

  • 从图中可以看出,SGHMC算法的RMSE loss最低,达到了0.84117,是一种比较好的优化方法,得到的模型也具有比较好的推荐效果。

5. 集成推荐算法

  • 上述的推荐算法均为针对某一个方面进行推荐,并且没有实现对特定用户输入的特定电影进行推荐,这里我将上面的算法组合起来,实现了三种集成推荐算法,可以进行更加个性化的推荐。
5.1 KNN+文本的集成推荐
  • 我首先使用KNN算法对输入的当前用户ID,查找与之最邻近的10位用户,将这些相似用户看过的电影并且当前用户没有看过的电影作为候选电影。
  • 之后将用户输入的文本转换为向量,将候选电影的文本信息(简介、名称、导演等)编码为向量。
  • 最后依据提取的候选电影向量与输入文本向量之间的cosine距离来为用户推荐距离最近的前10部电影。
5.2 用户KNN+电影KNN
  • 我首先使用KNN算法对输入的当前用户ID,查找与之最邻近的10位用户,将这些相似用户看过的电影并且当前用户没有看过的电影作为候选电影。
  • 之后对于电影数据进行KNN处理,挑选出与用户输入电影最邻近的10部电影进行推荐
5.3 用户KNN+奇异值分解
  • 我首先使用KNN算法对输入的当前用户ID,查找与之最邻近的10位用户,将这些相似用户看过的电影并且当前用户没有看过的电影作为候选电影。
  • 之后利用矩阵分解,模拟当前用户对候选电影的评分,选择评分最高的十部电影进行推荐。
  • 测试结果
    • 这里采用了与3.2中相同的测试方法进行测试
    • 对每个用户推荐了10部电影,总共推荐了6040部电影,其中出现在测试集中的电影数目为602部,占9.97%,效果不如只使用用户KNN的算法
  • 分析原因
    • 用户、电影评分矩阵中包含了对于每部电影的评分,评分有高有低,即使是用户看过的电影也会有评分很低的,在本方法中会将这样的电影排除掉,为用户推荐的是模拟评分后分数高的电影
    • 测试中没有涉及到这个问题,因此带来了结果的差异

五、总结

  • 本项目从收集数据集、分析用户需求,到论文的查阅、算法的实现,最后到推荐系统的构建,一步步地完成了一个小型(微型)机器学习系统的搭建,将课上的知识学以致用,增强了从较大的方面分析问题的能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/31620.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AIGC-CVPR2024best paper-Rich Human Feedback for Text-to-Image Generation-论文精读

Rich Human Feedback for Text-to-Image Generation斩获CVPR2024最佳论文!受大模型中的RLHF技术启发,团队用人类反馈来改进Stable Diffusion等文生图模型。这项研究来自UCSD、谷歌等。 在本文中,作者通过标记不可信或与文本不对齐的图像区域&…

内网环境使用Docker部署Qwen2模型

背景介绍 在我参与的一个国企项目中,我们基于大语言模型开发了一些应用,但是甲方公司所有的资源环境都是纯内网。更为有趣的是,甲方公司已自主搭建并运行着一套百度机器学习平台(BML),客户要求所有的大模型部署必须依托于现有的BML平台进行,而非独立构建全新的基础设施…

编程机器人方阵怎么编程的:深入解析其编程逻辑与实现

编程机器人方阵怎么编程的:深入解析其编程逻辑与实现 在科技日新月异的今天,编程机器人方阵作为自动化和智能化的杰出代表,吸引了无数人的目光。那么,这些机器人方阵究竟是如何进行编程的呢?本文将从四个方面、五个方…

vulnhub靶场之FunBox-11

一.环境搭建 1.靶场描述 As always, its a very easy box for beginners. Add to your /etc/hosts: funbox11 This works better with VirtualBox rather than VMware. 2.靶场下载 https://www.vulnhub.com/entry/funbox-scriptkiddie,725/ 3.靶场启动 二.信息收集 1.寻找靶…

1028 - 输入一个三位数,把个位和百位对调后输出

问题描述 输入一个三位自然数,然后把这个数的百位数与个位数对调,输出对调后的数。 输入 输入一行,只有一个整数 x(100≤x≤999) 。 输出 输出只有一行,包括 1 个整数。 样例 输入 123 输出 321 输入 120 输出 21 …

通过腾讯云TDSQL TCPTCE(MySQL版)认证考试秘籍宝典

腾讯云TDSQL(MySQL版)交付运维高级工程师TCCP证书展示 腾讯云TDSQL(MySQL版)交付运维专家TCCE考试成绩、证书展示 认证类型与级别 TCCA:入门级(初级) TCCP:高级(中级) TCCE:专家级(高级) 考试形式 考试是在线考试,考生需要在腾讯云大学官网上完成。 腾讯云TDSQ…

LabVIEW项目中的常见电机及其特点分析

在LabVIEW项目中,电机的选择对系统的性能和应用效果至关重要。常见电机类型包括直流电机(DC Motor)、步进电机(Stepper Motor)、交流感应电机(AC Induction Motor)和无刷直流电机(BL…

mongosh常用命令详解及如何开启MongoDB身份验证

目录 Mongosh常用命令介绍 连接到MongoDB实例 基本命令 查看当前数据库 切换数据库 查看所有数据库 查看当前数据库中的集合 CRUD操作 插入文档 查询文档 更新文档 删除文档 替换文档 索引操作 创建索引 查看索引 删除索引 聚合操作 数据库管理 创建用户 …

手把手教你软著申请(带视频+包括所有模板附赠软著申请软件)

基于前面的这个软件,这一次我沉淀两日重新归来! 小唐读取软件全新升级! 现在我们开始把我们软著申请流程重新走一遍! 要不?你也来申请一张软著? 1.中国版权保护中心注册 1.1注册 大家在这个网址处写好自…

RedisConnectionException: Unable to connect to localhost/<unresolved>:6379

方法一:删除配置密码选项 一般是因为你在启动redsi服务的时候没有以指定配置文件启动 把application.yml文件中的redis密码注释掉 方法二 以指定配置文件启动 这样就不用删除yml文件中密码的选项了 在redis,windows.conf 中找到requirepass,删除掉前…

面试官:聊聊 nextTick

前言 在最近的面试中,不少面试官叫我聊聊 nextTick,nextTick 是个啥,这篇文章咱来好好聊聊! 我的回答 nextTick 是官方提供的一个异步方法,用于在 DOM 更新之后执行回调。正好在我的项目中用到了,就拿它来形容一下,大概的场景是渲染一个列表,每次点击按钮就会往列表后…

【JavaSE复习】基础、面向对象

JavaSE复习 1.Java入门1.1 cmd常见命令1.2 JDK下载和安装1.3 JRE和JDK 2.基础语法2.1 注释和关键字2.2 常量2.3 变量2.4 数据类型2.4.1 基本数据类型2.4.2 引用数据类型 2.5 IDEA 的下载和安装 3. 运算符3.1 算数运算符3.2 数据类型转换3.2.1 隐式转换3.2.2 强制转换 3.3 自增自…

【Matlab】CNN-LSTM分类 卷积神经网络-长短期记忆神经网络组合模型(附代码)

资源下载: https://download.csdn.net/download/vvoennvv/89466499 分类算法资源合集:https://download.csdn.net/download/vvoennvv/89466519 目录 Matlab SVM支持向量机分类算法 Matlab RF随机森林分类算法 Matlab RBF径向基神经网络分类算法 Ma…

Java面试题:对比继承Thread类和实现Runnable接口两种创建线程的方法,以及它们的优缺点

Java 中创建线程有两种主要的方法:继承 Thread 类和实现 Runnable 接口。下面我将分别介绍这两种方法,并对比它们的优缺点。 继承 Thread 类 方法: 创建一个继承自 Thread 的子类。重写 Thread 类的 run 方法。创建子类的实例并调用 start…

孩子的价值不只在于成绩

在一次普通的家长会上,一位爸爸的发言引起了在场所有人的深思。他并没有像其他家长那样询问孩子的学习成绩,而是提出了一个让所有人都为之一愣的问题:“我们的孩子,他们的价值真的只在于成绩吗?”这位爸爸的提问&#…

服装连锁实体店bC一体化运营方案

一、引言 随着互联网的快速发展和消费者购物习惯的变化,传统服装连锁实体店在面对新的市场环境下亟需转型升级。BC(Business to Consumer)一体化运营方案的实施将成为提升服装连锁实体店竞争力和顾客体验的关键举掖。商淘云详细介绍服装连锁…

如何将现有系统逐步优化成微服务设计

目录 基础服务改造核心步骤准备阶段实施阶段 基础服务设计 本文诞生于学习架构实践专栏后的深思以及总结,结合公司之前“大泥球”的架构风格,改造服务设计的思维。 改造公司系统服务主要原因:1、代码类似“屎山”,牵一发而动全身&…

人工智能--搭建人工神经网络

欢迎来到 Papicatch的博客 文章目录 🍉引言 🍉神经元与感知器 🍈神经元(Neuron) 🍈感知器 🍉损失函数与梯度下降算法 🍈损失函数 🍈梯度下降算法 🍉…

【绝对有用】C++ vector排序

在 C 中&#xff0c;有多种方法可以对向量&#xff08;即 std::vector&#xff09;进行排序。最常用的方法是使用标准库中的 std::sort 函数。以下是一些例子&#xff1a; 使用 std::sort 函数 std::sort 函数是标准库 <algorithm> 中的一个函数&#xff0c;可以对向量…

cd 命令特殊路径符 mkdir命令

cd 特殊路径符 cd . 表示当前目录&#xff0c;比如 cd ./Desktop表示切换到当前目录下的Desktop目录内&#xff0c;和 cd Desktop效果一致。cd … 表示上一级目录&#xff0c;比如 cd … 即可切换到上一级目录&#xff0c;cd…/…切换到上二级目录。cd ~ 表示 HOME 目录&#…