机器学习的分类与经典算法

机器学习算法按照学习方式分类,可以分为有监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、半监督学习(Semi-supervised Learning)、强化学习(Reinforcement Learning)。
按照学习策略分类,可以分为机械学习、示教学习、类比学习、基于解释的学习、归纳学习。
按照学习任务分类,可以分为分类、回归、聚类。
按照应用领域分类,可以分为自然语言处理、计算机视觉、机器人、自动程序设计、智能搜索、数据挖掘和专家系统。

有监督学习

监督学习的定义

监督学习是指在给定的训练集中“学习”出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出,即特征值和目标值(标签),训练集中数据的目标值(标签)是由人工事先进行标注的。
监督学习流程图如下图所示,其中包括准备数据、数据预处理、特征提取和特征选择、训练模型和评价模型。
在这里插入图片描述

图1:监督学习流程图

Step1:准备数据。
监督学习首先要准备数据,没有现成的数据就需要采集数据或者爬取数据,或者从网站上下载数据。可以将准备好的数据集分为训练集、验证集和测试集。训练集是用来训练模型的数据集,验证集是确保模型没有过拟合的数据集,测试集是用来评估模型效果的数据集。

Step2:数据预处理。
数据预处理主要包括重复数据检测、数据标准化、数据编码、缺失值处理、异常值处理等。

Step3:特征提取和特征选择。
特征提取是结合任务自身特点,通过结合和转换原始特征集,构造出新的特征。特征选择是从大规模的特征空间中提取与任务相关的特征。特征提取和特征选择都是对原始数据进行降维的方法,从而去除数据的无关特征和冗余特征。

Step4:训练模型。
模型就是函数,训练模型就是利用已有的数据,通过一些方法确定函数的参数。

Step5:评价模型。
对于同一问题会有不同的数学模型,通过模型指标的比较来选取最优模型;对同一数学模型,通过模型指标的比较来调整模型参数。模型评价的基本思路是采用交叉验证方法。

监督学习的任务

监督学习有两个主要任务:回归和分类。回归用于预测连续的、具体的数值;分类是对各种事物进行分类,用于离散预测。

监督学习具体算法

监督学习算法发展史如图2所示。
在这里插入图片描述

图2:监督学习算法发展史

其中典型的监督学习算法有朴素贝叶斯、决策树、支持向量机、逻辑回归、线性回归、k近邻等,常见的8种监督学习算法的特点如表1所示。

表1:监督学习常见算法
算法名称类型特点应用
朴素贝叶斯分类通过一个给定的元组属于一个特定的概率来进行分类文本分类、垃圾邮件分类、信用评估
决策树分类通过训练数据构建决策树,对未知数据进行分类科学决策、风险评估、金融分析
支持向量机分类通过最大化分类边界点与分类平面的距离来实现分类模式识别、文本分类
逻辑回归分类处理因变量为分类变量的回归问题,常见的有二分类或项分布问题,也有多分类问题数据挖掘、疾病自动诊断、经济预测
线性回归回归通过一个超平面拟合数据集流行病研究、金融分析、股市预测
k近邻分类+回归根据距离相近的邻居类别来判定自己所属类别图像分类、模式识别
AdaBoost分类+回归通过将一系列弱学习器组合起来,集成弱学习器的学习能力,得到一个强学习器人脸检测、森林火灾预测
神经网络分类+回归通过对人脑神经元网络进行抽象,建立模型,按照不同的连接方式组成不同的网络模式识别、语音识别、文本分类

无监督学习

无监督学习的定义

无监督学习是指在机器学习过程中,用来训练机器的数据是没有标签的,机器只能依靠自己不断探索,对知识进行归纳和总结,尝试发现数据中的内在规律和特征,从而对训练数据打标签。

无监督学习的任务

无监督学习的训练数据是无标签的,非监督学习的目标是对观察值进行分类或者区分。
常见的无监督学习算法主要有三种:聚类、降维和关联。聚类算法是无监督学习中最常用的算法,它将观察值聚成一个一个的组,每个组都含有一个或几个特征。聚类的目的是将相似的东西聚在一起,而并不关心这类东西具体是什么。降维指减少一个数据集的变量数量,同时保证传达信息的准确性。关联指的是发现事物共现的概率。

无监督学习具体算法

无监督学习算法主要用于识别无标签数据的结构,常见算法如表2所示。

表2:无监督学习常见算法
算法名称类型特点应用
K-means基于划分方法的聚类将数据分为K组,随机选取K个对象作为初始的聚类中心,计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心客户分析与分类、图形分割
Birch基于层次的聚类通过扫描数据库,建立一个聚类特征树,对聚类特征树的叶节点进行聚类图片检索、网页聚类
Dbscan基于密度的聚类将密度大的区域划分为族,在具有噪声的空间数据库中发现任意形状的簇,并将簇定义为密度相连的点的最大集合社交网络聚类、电商用户聚类
Sting基于网格的聚类将空间区域划分为矩形单元,对于不同级别的分辨率,存在多个矩形单元,高层单元被划分为多个低层单元,计算和存储每个网格单元属性的统计信息语音识别、字符识别
主成分分析(PCA)线性降维通过正交变换将一组可能存在相关性的变量数据转换为组线性不相关的变量,转换后的变量被称为主成分数据挖掘、图像处理
线性判别分析(LDA)线性降维将高维空间中的数据投影到低维空间中,投影后各个类别的类内方差小,而类间均值差别大人脸识别、舰艇识别
局部线性嵌入(LLE)非线性降维在保持原始数据性质不变的情况下,将高维空间的信号映射到低维空间,从而进行特征值的二次提取图像识别、高维数据可视化
拉普拉斯映射(LE)非线性降维从局部近似的角度构建数据之间的关系,对要降维的数据构建图,图中的每个节点和距离它最近的K个节点建立边关系故障检测

半监督学习

半监督学习的定义

机器学习中的监督学习通过对大量有标签的样本进行学习,建立模型预测未知样本。然而,现实世界中有大量的无标签样本和少量的有标签样本。如果只用少量的有标签样本训练机器,学习系统往往很难具备强泛化能力,同时大量的无标签样本得不到利用,也会对数据资源造成极大的浪费。
如何在少量的有标签样本下,利用大量的无标签样本改善机器学习性能,成为机器学习研究者关注的问题之一。
目前,利用无标签样本的主流技术有(纯)半监督学习、直推学习和主动学习,这三种学习方式的共同点是利用大量无标签样本来辅助少量有标签样本的学习,如图3所示。

图3所示三种机器学习方式的相同点是训练数据集中都包含少量的有标签数据和大量的无标签数据,利用这些数据对模型进行训练。不同点在于主动学习将抽取部分无标签数据,交由专家进行人工标注,将标注后的数据放入有标签数据集中,一起对模型进行训练。而(纯)半监督学习和直推学习没有专家对训练数据集中的无标签数据进行标注的过程。

(纯)半监督学习和直推学习的不同之处在于训练完的模型预测的对象不同,(纯)半监督学习是预测待测数据,而直推学习是预测训练数据集中的无标签数据。

在这里插入图片描述
在这里插入图片描述

图3:(纯)半监督学习、直推学习和主动学习

半监督学习的基本假设

半监督学习的成立依赖于模型的假设,当模型假设正确时,无标签样本能够帮助改进学习性能。
半监督学习中两个常用的假设是聚类假设和流形假设:
聚类假设是指处在相同聚类中的样本有较大可能具有相同的标签。在这一假设下,大量无标签样本的作用就是帮助探明样本空间中数据分布的稠密和稀疏区域,从而指导算法对利用有标签样本学习到的决策边界进行调整,使其尽量通过数据分布的稀疏区域。
流形假设是指在一个很小的局部区域内的样本具有相似的性质,其标签也相似。在这一假设下,大量无标签样本的作用就是让数据分布变得更加稠密,从而更准确地刻画局部区域的特性,使决策函数更好地进行数据拟合。

半监督学习具体算法

从不同的学习场景看,半监督学习算法可分为 4 大类:半监督分类、半监督回归、半监督聚类和半监督降维,如图4所示。

半监督分类算法的基本思想是在无标签样本的帮助下训练有标签样本,获得比单独使用有标签样本更好的分类器,弥补有标签样本不足的缺陷。

半监督回归算法的基本思想是在无输出的输入的帮助下训练有输出的输入,获得比只使用有输出的输入训练得到的回归器性能更好的回归器。

半监督聚类算法的基本思想是在有标签的样本信息的帮助下,获得比只使用无标签的样本更好的簇,提高聚类的精度。

半监督降维算法的基本思想是在有标签的样本信息的帮助下,找到高维输入数据的低维结构,同时保持原始高维数据和成对约束的结构不变。
在这里插入图片描述

图4:半监督学习算法分类

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/590199.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[NAND Flash 5.1] 闪存芯片物理结构与SLC/MLC/TLC/QLC

依公知及经验整理,原创保护,禁止转载。 专栏 《深入理解NAND Flash》 <<<< 返回总目录 <<<< 前言 1 闪存芯片简介 闪存颗粒是固态硬盘中数据的真实存储地,就像机械硬盘的磁盘一样。 闪存颗粒flash memory是一种存储介质,重要的区别于传统机械盘…

bat脚本:将ini文件两行值转json格式

原文件 .ini&#xff1a;目标转换第2行和第三行成下方json [info] listKeykey1^key2^key3 listNameA大^B最小^c最好 ccc1^2^3^ ddd0^1^9目标格式 生成同名json文件&#xff0c;并删除原ini文件 [ { "value":"key1", "text":"A大" …

动态规划 | 最长公共子序列问题

文章目录 最长公共子序列题目描述问题分析程序代码复杂度分析 最短编辑距离题目描述问题分析程序代码复杂度分析 编辑距离题目描述输入格式输出格式 问题分析程序代码 最长公共子序列 题目描述 原题链接 给定两个字符串 text1 和 text2&#xff0c;返回这两个字符串的最长 公共…

图文证明 等价无穷小替换

等价无穷小替换 定义 等价无穷小是无穷小之间的一种关系&#xff0c;指的是&#xff1a;在同一自变量的趋向过程中&#xff0c;若两个无穷小之比的极限为1&#xff0c;则称这两个无穷小是等价的。无穷小等价关系刻画的是两个无穷小趋向于零的速度是相等的。 设当 x → x 0 时…

Android 接入第三方数数科技平台

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、数数科技平台是什么&#xff1f;二、使用步骤1.集成SDK2. 初始化3. 发送事件和设置账号id4. 验证发送事件是否成功 小结 前言 一个成熟的App必然不可缺少对…

算法学习系列(十四):并查集

目录 引言一、并查集概念二、并查集模板三、例题1.合并集合2.连通块中点的数量 引言 这个并查集以代码短小并且精悍的特点&#xff0c;在算法竞赛和面试中特别容易出&#xff0c;对于面试而言&#xff0c;肯定不会让你去写一两百行的代码&#xff0c;一般出的都是那种比较短的…

服务器的TCP连接限制:如何优化并提高服务器的并发连接数?

&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308; 欢迎关注公众号&#xff08;通过文章导读关注&#xff09;&#xff0c;发送【资料】可领取 深入理解 Redis 系列文章结合电商场景讲解 Redis 使用场景、中间件系列…

mysql基础-表操作

环境&#xff1a; 管理工具&#xff1a;Navicat 数据库版本&#xff1a;5.7.37 mysql的版本&#xff0c;我们可以通过函数&#xff0c;version()进行查看&#xff0c;本次使用的版本如下&#xff1a; 目录 1.管理工具 1.1创建表 1.2.修改表名 1.3.复制表 1.4.删除表 2…

python开发的app有哪些,python如何开发小软件

这篇文章主要介绍了python开发的app有哪些&#xff0c;具有一定借鉴价值&#xff0c;需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获&#xff0c;下面让小编带着大家一起了解一下。 Python 无处不在&#xff0c;可以说是现代的 C 编程语言&#xff0c;你可以在任何地…

寄存器的相关知识

CPU原理和结构详解 一、CPU概述 中央处理器&#xff08;CPU&#xff09;&#xff0c;是计算机的核心部件&#xff0c;负责执行计算机程序中的指令&#xff0c;控制计算机的运算和逻辑判断。CPU的性能直接决定了计算机的运行速度和效率。 二、CPU工作原理 CPU的工作原理可以概括…

【记录】开始学习网络安全

本文持续更新学习进度 背景 在私企干了5年虚拟化、云原生相关的运维&#xff0c;学到了很多&#xff0c;但不成体系。老板是清华毕业法国留学在德勤干过&#xff0c;最后回国创业的野路子。我工作是为了更好的生活&#xff0c;我挺担心老板因为家庭变故或者炒个原油宝&#x…

【Vue3】请求参数

1. x-www-form-urlencoded 请求方式&#xff1a;POST nameJohn&age25export const userRegisterService (registerData) > {// 直接传入会是 json 格式// URLSearchParams 将 json 格式转为 x-www-form-urlencoded 格式const params new URLSearchParams();for (let…

54.网游逆向分析与插件开发-游戏增加自动化助手接口-项目需求与需求拆解

内容来源于&#xff1a;易道云信息技术研究院VIP课 项目需求&#xff1a; 为游戏增加VIP功能-自动化助手。自动化助手做的是首先要说一下背景&#xff0c;对于授权游戏来讲它往往年限都比较老&#xff0c;老游戏和新游戏设计理念是不同的&#xff0c;比如说老游戏基本上在10年…

<软考高项备考>《论文专题 - 40采购管理(4) 》

4 过程3-控制采购 4.1 问题 4W1H过程做什么管理采购关系、监督合同绩效、实施必要的变更和纠偏&#xff0c;以及关闭合同的过程作用&#xff1a;确保买卖双方履行法律协议&#xff0c;满足项目需求为什么做为保证采购活动顺利进行&#xff0c;采购物品符合项目要求谁来做组织…

easyx的窗口函数

文章目录 前言一、EasyX的颜色二、EasyX的坐标和设备1&#xff0c;EasyX的坐标2&#xff0c;EasyX的设备 三、窗口函数1&#xff0c;初始化窗口函数2&#xff0c;关闭绘图窗口3&#xff0c;设置窗口背景板颜色4&#xff0c;清空绘图设备 前言 easyx是针对c的图形库&#xff0c;…

360高级java面试真题

今年IT寒冬&#xff0c;大厂都裁员或者准备裁员&#xff0c;作为开猿节流主要目标之一&#xff0c;我们更应该时刻保持竞争力。为了抱团取暖&#xff0c;林老师开通了《知识星球》&#xff0c;并邀请我阿里、快手、腾讯等的朋友加入&#xff0c;分享八股文、项目经验、管理经验…

在kuboard页面配置harbor地址,配置私有仓库

点击项目-配置中心-密文&#xff0c;配置harbor地址 配置完仓库地址需要在对应的k8s master节点 worker节点&#xff0c;配置私有仓库地址要是不配置会报错 [rootk8smaster ~]# docker login 10.4.7.9:80/ -u admin -p Harbor12345 WARNING! Using --password via the CLI is…

第三代半导体SiC 专业术语及指标解释

SiC &#xff1a; 化合物半导体材料&#xff0c;第三代半导体材料代表&#xff0c;主要用于功率半导体领域 GaN &#xff1a; 化合物半导体材料&#xff0c;第三代半导体材料代表&#xff0c;主要用于高频射频领域 GaAs&#xff1a; 化合物半导体材料&#xff0c;第二…

shell中数组和元组---应用与了解

shell中数组和元组—应用与了解 在Shell中&#xff0c;数组和元组是两种用于存储多个值的数据结构。它们都可以存储多个元素&#xff0c;但它们的使用方式和语法有所不同。 一、数组 定义数组 在Shell中&#xff0c;可以使用或()来定义数组。例如&#xff1a; arr1("a…