Python 全栈体系【四阶】(二十)

第五章 深度学习

二、推荐系统

1. 推荐算法介绍

1.1 个性化推荐算法
  • 人口属性

  • 地理属性

  • 资产属性

  • 兴趣属性

1.2 推荐算法分支
  • 协同过滤推荐算法
  • 基于内容的推荐算法
  • 混合推荐算法
  • 流行度推荐算法
1.3 推荐算法

为推荐系统选择正确的推荐算法是非常重要的决定。目前为止,已经有许多推荐算法可供选择,但为你需要解决的特定问题选择一种特定的算法仍然很困难。每一种推荐算法都有其优点和缺点,当然也有其限制条件,在作出决定之前,你必须要一一考量。在实践中,你可能会测试几种算法,以发现哪一种最适合你的用户,测试中你也会直观地发现它们是什么以及它们的工作原理。

1.4 协同过滤算法

基于内存的协同过滤/基于邻域的协同过滤

  • 相似统计的方法得到具有相似兴趣爱好的邻居用户

基于模型的协同过滤

  • 先用历史数据得到一个模型,再用此模型进行预测。基于模型的推荐广泛使用的技术包括神经网络等学习技术、潜在语义检索 (latent seman2tic indexing)和贝叶斯网络 (bayesian networks)。
1.5 邻域的协同过滤

UCF 距离算法 ICF

欧几里得距离(Euclidean Distance)以及欧式距离的标准化(Standardized Euclidean Distance)

马哈拉诺比斯距离(Mahalanobis Distance)

曼哈顿距离(Manhattan Distance)

切比雪夫距离(Chebyshev Distance)

明可夫斯基距离(Minkowski Distance)

海明距离(Hamming distance)

1.6 ICF

请添加图片描述

1.7 UCF

请添加图片描述

1.8 邻域的协同过滤

UCF ICF 相似度

余弦相似度(Cosine Similarity)以及调整余弦相似度(Adjusted Cosine Similarity)

皮尔森相关系数(Pearson Correlation Coefficient)

Jaccard 相似系数(Jaccard Coefficient)

Tanimoto 系数(广义 Jaccard 相似系数)

对数似然相似度/对数似然相似率

互信息/信息增益,相对熵/KL 散度

信息检索–词频-逆文档频率(TF-IDF)

词对相似度–点间互信息

1.9 基于模型的协同过滤

用关联算法做协同过滤

用聚类算法做协同过滤

用分类算法做协同过滤

用回归算法做协同过滤

用矩阵分解做协同过滤

用神经网络做协同过滤

用图模型做协同过滤

用隐语义模型做协同过滤

1.10 关联规则

Apriori

  • Apriori 算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。比如在常见的超市购物数据集,或者电商的网购数据集中,如果我们找到了频繁出现的数据集,那么对于超市,我们可以优化产品的位置摆放,对于电商,我们可以优化商品所在的仓库位置,达到节约成本,增加经济效益的目的。

FPGROWTH

  • FpGrowth 算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高。

请添加图片描述
请添加图片描述

1.11 聚类

K-Means

  • K-Means 算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means 算法有大量的变体,本文就从最传统的 K-Means 算法讲起,在其基础上讲述 K-Means 的优化变体方法。包括初始化优化 K-Means++, 距离计算优化 elkan K- Means 算法和大数据情况下的优化 Mini Batch K-Means 算法。

BIRCH

  • BIRCH 的全称是利用层次方法的平衡迭代规约和聚类(Balanced Iterative Reducing and Clustering Using Hierarchies),名字实在是太长了,不过没关系,其实只要明白它是用层次方法来聚类和规约数据就可以了。

请添加图片描述

1.12 分类

逻辑回归原理

  • 如果我们根据用户评分的高低,将分数分成几段的话,则这个问题变成分类问题。比如最直接的,设置一份评分阈值,评分高于阈值的就是推荐,评分低于阈值就是不推荐,我们将问题变成了一个二分类问题。虽然分类问题的算法多如牛毛,但是目前使用最广泛的是逻辑回归。

朴素贝叶斯算法

请添加图片描述

1.13 矩阵分解

请添加图片描述

1.14 矩阵分解之隐语义

请添加图片描述
请添加图片描述

1.15 神经网络

2006 年,Hinton 在《Science》和相关期刊上发表了论文,首次提出了“深度信念网络”的概念。与传统的训练方式不同,“深度信念网络”有一个“预训练”(pre-training)的过程,这可以方便的让神经网络中的权值找到一个接近最优解的值,之后再使用“微调”(fine-tuning)技术来对整个网络进行优化训练。这两个技术的运用大幅度减少了训练多层神经网络的时间。他给多层神经网络相关的学习方法赋予了一个新名词–“深度学习”。

很快,深度学习在语音识别领域暂露头角。接着,2012 年,深度学习技术又在图像识别领域大展拳脚。Hinton 与他的学生在ImageNet 竞赛中,用多层的卷积神经网络成功地对包含一千类别的一百万张图片进行了训练,取得了分类错误率 15%的好成绩,这个成绩比第二名高了近 11 个百分点,充分证明了多层神经网络识别效果的优越性。
请添加图片描述

请添加图片描述

1.16 协同过滤优点
  • 实现快
  • 对商品和用户没有要求
  • 效果有保证
1.17 协同过滤缺点
  • 冷启动
  • 马太效应
  • 推荐解释模糊
1.18 工具

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/772937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot+vue调用百度ai实现车牌号识别功能

百度车牌号识别官方文档 结果视频演示 后端代码 private String getCarNumber(String imagePath, int count) {// 请求urlString url "https://aip.baidubce.com/rest/2.0/ocr/v1/license_plate";try {byte[] imgData FileUtil.readFileByBytes(imagePath);Stri…

机器学习笔记(4)—逻辑回归(Logistic Regression)

文章目录 逻辑回归(Logistic Regression)分类问题假说表示判定边界代价函数简化的成本函数和梯度下降多类别分类:一对多 逻辑回归(Logistic Regression) 分类问题 分类问题中,我们要预测的变量 y y y是一…

【算法】计数排序

1. 简介 计数排序(counting sort)于1954年由哈罗德H西华德(Harold H. Seward)提出。计数排序是一种基于数组键值的正整数排序算法,通过对等于不同键值的数据进行计数,从而获得待排序序列的位置关系。由此,这种算法不是基于比较排序,并且比较排序的性能下限 O ( n log …

【数字图像处理】改变图像灰度级别

改变图像灰度级别 首先,对原始图像 O O O进行灰度级量化: q int ⁡ ( O 2 i ) 2 i , q\operatorname{int}\left(\frac{O}{2^{i}}\right) \times 2^{i}, qint(2iO​)2i, 灰度级别256,128,64,32,16,8&…

Qt 图形视图 /图形视图框架坐标系统的设计理念和使用方法

文章目录 概述Qt 坐标系统图形视图的渲染过程Item图形项坐标系Scene场景坐标系View视图坐标系map坐标映射场景坐标转项坐标视图坐标转图形项坐标图形项之间的坐标转换 其他 概述 The Graphics View Coordinate System 图形视图坐标系统是Qt图形视图框架的重要组成部分&#xf…

第二部分、职教热点

目录 一、课程思政(重点) 二、工匠精神(重点) 三、三全育人(重点) 四、三教改革(重点) 五、产教融合(重点) 六、校企合作(重点)…

PHP学习笔记

//语法错误(syntax error)在语法分析阶段,源代码并未被执行,故不会有任何输出。 /* 【命名规则】 */ 常量名 类常量建议全大写,单词间用下划线分隔 // MIN_WIDTH 变量名建议用下划线方式分隔 // $var_na…

1.0 html(1)

html 一、基本介绍 1、定义:html是一种超文本标记语言,也是一种标识性语言(不是编程语言) 标记:记号(绰号) 超文本:就是页面内容可以包含图片、链接,音乐&#xff0c…

IBM:《2023IBM年报》

2024年3月12日,IBM分享了《2023IBM年报》。 报告节选: 在本财年,IBM 的收入为 619 亿美元,按固定汇率计算增长 3%,自由现金流为 112 亿美元,同比增长 19 亿美元。我们经历了对新 watsonx 平台日益增长的需…

ElasticSearch、java的四大内置函数式接口、Stream流、parallelStream背后的技术、Optional类

第四周笔记 一、ElasticSearch 1.安装 apt-get install lrzsz adduser -m es 创建用户组: useradd *-m* xiaoming(用户名) *PS:追加参数-m* passwd xiaoming(用户名) passwd xiaoming 输入新的 UNIX 密码: 重新输入新的 UNIX 密码&…

Spring Boot | Spring Boot的“核心配置“与“注解“

目录: Spring Boot的核心配置与注解 :1. 全局配置文件 ( application.properties / application.yaml:创建项目时候自动生成,其会被“自动导入”到“程序”中 )application.properties配置文件application.yaml 配置文件 (推荐使用)当value值…

Python中实现跑马灯效果

跑马灯效果是一种在显示屏上文字或图像连续滚动的视觉效果,常见于广告和通知。在Python中,我们可以使用标准库中的功能来创建这样的效果。本文将介绍如何使用Python实现简单的跑马灯效果。 准备工作 首先,确保你的Python环境已经安装了pyga…

C++ Lists(链表)基本用法

Lists将元素按顺序储存在链表中,与向量(vectors)相比,它允许快速的插入和删除,但是随机访问却比较慢。以下是Lists的一些基本用法: 1. assign 语法: void assign(input_iterator start, input_iterator end); void a…

GitLab更新失败(CentOS)

使用yum更新GitLab,出现如下错误提示: Error: Failed to download metadata for repo gitlab_gitlab-ce: repomd.xml GPG signature verification error: Bad GPG signature 编写如下脚本: for pubring in /var/cache/dnf/gitlab_gitlab-?…

基于nodejs+vue电影订票系统python-flask-django-php

本系统采用了node语言的express框架,数据采用MySQL数据库进行存储。结合进行开发设计,功能强大,界面化操作便于上手。本系统具有良好的易用性和安全性,系统功能齐全,可以满足电影订票的相关工作。 目 录 1 绪 论 3 1.1…

centos7 安装influxdb+telegraf+grafana 监控服务器

influxdb influxdb是一个时间序列数据库, 所有数据记录都会打上时间戳, 适合存储数字类型的内容 telegraf telegraf 可以用于收集系统和服务的统计数据并发送到influxdb grafana grafana 是一个界面非常漂亮, 可直接读取influxdb数据展示成各种图表的开源可视化web软件 安…

【WPF应用17】WPF 基本控件-InkCanvas布局,应用详解与示例

WPF (Windows Presentation Foundation) 中的 InkCanvas 控件是一个非常有用的工具,它允许用户在应用程序中进行手写输入、绘制图形和输入触摸命令。在本文中,我们将详细介绍 InkCanvas 控件的基本知识、布局方式以及如何在应用程序中应用它。 1. InkCa…

day2链表

单循环链表&#xff1a;&#xff08;典型应用&#xff09;约瑟夫环 自行了解 #include<iostream> using namespace std;class CircleLink { public:CircleLink(){_head new Node();_tail _head;_head->_next _head;}~CircleLink(){Node* p _head->_next;while…

JMETER如何分布式压测

JMeter分布式压测是一种通过多台计算机共同工作来模拟大量并发用户对服务器或应用程序进行压力测试的方法。这种方法可以有效地提高测试的并发用户数&#xff0c;从而更准确地评估系统在高负载下的性能。以下是进行JMeter分布式压测的基本步骤&#xff1a; 准备测试环境&#…

嵌入式服务器和机架式服务器有什么不同?

嵌入式服务器和机架式服务器是两种不同类型的服务器&#xff0c;它们在设计、用途和部署方式上有所不同&#xff1a; 嵌入式服务器&#xff1a; 设计特点&#xff1a;嵌入式服务器通常设计为一种小型、低功耗、集成度高的服务器&#xff0c;通常采用定制化的硬件和嵌入式操作系…