【机器学习与实现】机器学习概述

目录

    • 一、机器学习的基本概念和方法
      • (一)基本概念
      • (二)机器学习的一般过程举例
      • (三)样本和参数估计
    • 二、机器学习的步骤总结
      • (一)机器学习的主要步骤
      • (二)样本及样本的划分
      • (三)评估机器学习模型的效果
      • (四)欠拟合、过拟合与泛化能力
    • 三、机器学习的预处理环节
      • (一)数据预处理
      • (二)数据标准化
      • (三)数据的降维
    • 四、机器学习的类型
      • (一)聚类模型、分类模型、回归模型
      • (二)监督学习、无监督学习和半监督学习
    • 五、机器学习的学习路线


人工智能与机器学习、深度学习的关系

机器学习:

  • 是目前实现人工智能的主流方法和技术。
  • 机器学习——数据驱动的人工智能。

在这里插入图片描述

一、机器学习的基本概念和方法

(一)基本概念

从事例中学习(体现数据驱动)—— “事例” 即 “样本”。

  • 统计学:由样本的统计量估计总体的参数。
  • 机器学习:利用训练集进行建模和参数估计,利用测试集进行模型测试。

在这里插入图片描述

(二)机器学习的一般过程举例

问题:让机器(程序)自动识别一个物品是筷子or牙签。(注: 机器开始并没有筷子和牙签的任何知识)

1、第一步:收集一些筷子和牙签的样本。

在这里插入图片描述
2、第二步:特征选择,选择有区分度的特征。

3、第三步:训练模型。

  • 训练(training):从数据中学得模型的过程称为学习(learning)或训练(training),这个过程通过制定某种策略和执行某个学习算法来完成。
  • 训练过程中使用的数据称为训练数据(training data),其中每个样本称为一个训练样(training sample),训练样本组成的集合称为训练集(training set)。

在这里插入图片描述
模型:能否是其他? 例如抛物线所有可能的模型的集合称为假设空间

4、第四步:预测新实例。

  • 学得模型后,使用其进行预测的过程称为测试(testing),被预测的样本称为测试集(testing sample)。
  • 泛化能力(generalization):学得模型适用于新样本的能力。

在这里插入图片描述
机器学习三要素:基于一定策略,通过合适的算法求得模型

  • 模型:考研(江海大or南大)
  • 策略:求稳or更好的前景
  • 算法:内外联动

(三)样本和参数估计

  • 统计学中:样本是用来估计总体的参数。
  • (统计)机器学习中:样本是用来训练模型和估计模型参数的。
  • 对于参数估计来说

在这里插入图片描述

二、机器学习的步骤总结

(一)机器学习的主要步骤

  1. 收集相关样本
  2. 提取特征
  3. 将特征转换为数据(数据标准化)
  4. 训练模型
  5. 使用模型预测新实例

(二)样本及样本的划分

样本分为训练集、验证集和测试集。

在这里插入图片描述

  • 为了防止训练出来的模型只对训练数据有效,一般将训练数据又分为训练集和验证集。

  • 训练集用来训练模型,而验证集一般只用来验证模型的有效性,不参与模型训练。此外,验证集常用于调整模型的超参数。

在这里插入图片描述

(三)评估机器学习模型的效果

  训练模型的最终目的是提高模型在总体(含新样本)上的预测准确率,而不是在已知样本上的预测准确率。

为适应特殊样本而修改分类线为曲线:

在这里插入图片描述
两种分类线的预测准率对比:

在这里插入图片描述
  泛化能力是评价机器学习模型优劣的最根本指标,然而,模型的训练通常以最小化训练误差为标准。对于固定数量的训练样本,随着训练的不断进行,训练误差会不断降低,甚至趋向于零。如果模型训练误差过小,就会使训练出来的模型基本上完全适应于训练样本。

(四)欠拟合、过拟合与泛化能力

1、欠拟合、过拟合示例

  模型在训练样本上产生的误差叫训练误差(training error)。在测试样本上产生的误差叫测试误差(test error)。

在这里插入图片描述
在这里插入图片描述
2、泛化能力与模型复杂度

在这里插入图片描述
  衡量模型好坏的是测试误差,它标志了模型对未知新实例的预测能力,因此一般追求的是测试误差最小的那个模型。模型对新实例的预测能力称为泛化能力,模型在新实例上的误差称为泛化误差。

  能够求解问题的模型往往不只一个。一般来说,只有合适复杂程度的模型才能最好地反映出训练集中蕴含的规律,取得最好的泛化能力。并非使用一个更复杂的模型就会更好

3、奥卡姆剃刀原理——大道至简

  奥卡姆剃刀(Occam’s Razor)原理:如果有两个性能相近的模型, 我们应该选择更简单的模型 ,通常简单的模型泛化能力更好 。

在这里插入图片描述
课程思政:

  • 减少杂念,追求本真
  • 活在当下:在合适的时间做该做的事情
  • 不走极端、过犹不及

4、泛化能力评估方法

——留出法、K-折交叉验证

  将训练数据划分为训练集和验证集的方法称为留出法(holdout method),一般保留已知样本的20%到30%作为验证集。

  K-折交叉验证是将总样本集随机地划分为K个互不相交的子集。对于每个子集,将所有其它样本集作为训练集训练出模型,将该子集作为验证集,并记录验证集每一个样本的预测结果。这个方法将每一个样本都用来进行了验证,其评估的准确性一般要高于留出法。

在这里插入图片描述

三、机器学习的预处理环节

(一)数据预处理

  数据预处理是机器学习中繁琐枯燥但又是很重要的一个阶段。

在这里插入图片描述
为什么要进行数据预处理:

  获取到的原始样本数据往往会存在有缺失值、重复值等问题,在使用之前必须进行数据预处理。

数据预处理之前的样本:

在这里插入图片描述
数据预处理之后的样本:

在这里插入图片描述

(二)数据标准化

对于样本数据来说,首先需要消除特征之间不同量级的影响:

  • 量纲的差异将导致数量级较大的属性占主导地位(例如身高1.75米,体重130斤)。
  • 数量级的差异将导致迭代收敛速度减慢。
  • 依赖于样本距离的算法对于数量级非常敏感。

1、常用的数据标准化方法

  • min-max标准化(归一化):映射到[0,1]区间
    新数据 = (原数据 - 最小值) / (最大值 - 最小值)
  • z-score标准化(规范化):转换成标准正态分布
    新数据 = (原数据 - 均值) / 标准差

在这里插入图片描述
2、标准化和归一化的选择

  • 标准化:样本数据的分布要求服从正态分布。
  • 归一化的缺点:对离群值(outlier)很敏感,因为离群点会影响max或min值;其次,当有新数据加入时,可能导致max和min值发生较大变化。

  而在标准化方法中,新数据加入对标准差和均值的影响并不大。归一化会改变数据的原始距离、分布,使得归一化后的数据分布呈现类圆形。优点是数据归一化后,最优解的寻找过程会变得更平缓,更容易正确地收敛到最优解。

(三)数据的降维

  “维度” 就是指样本集中特征的个数,“降维” 指的是降低特征矩阵中特征的数量。维度灾难会导致分类器出现过拟合。这是因为在样本容量固定时,随着特征数量的增加,单位空间内的样本数量会变少。

在这里插入图片描述
在这里插入图片描述
  数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此,数据比模型更重要。

数据的降维方法:

  主成分分析(Principal Component Analysis,PCA)是最常用的一种降维方法,它试图找到数据方差最大的方向进行投影。矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次是第二主成分,以此类推。

  假设有五个样本,两个维度的数据,那么这五个样本要从二维降维到一维,就图中的三条虚线,新的维度为哪一条最好?

在这里插入图片描述
  需要分别计算下在新的维度上的投影值,然后计算投影坐标值的方差,方差最大的就是最好的维度
(数据点更容易区分)。

四、机器学习的类型

(一)聚类模型、分类模型、回归模型

  • 聚类(Clustering)模型用于将训练数据按照某种关系划分为多个簇,将关系相近的训练数据分在同一个簇中。
  • 分类(Classification)是机器学习应用中最为广泛的任务,它用于将某个事物判定为属于预先设定的多个类别中的某一个。
  • 回归(Regression)模型预测的不是属于哪一类,而是什么值,可以看作是将分类模型的类别数无限增加,即标签值不再只是几个离散的值了,而是连续的值。

(二)监督学习、无监督学习和半监督学习

  • 监督学习处理的对象是所谓的有标签训练数据,它利用有标签的训练数据来学习一个模型,它的目标是用学到的模型给无标签的测试数据打上标签。
  • 无监督学习的训练数据没有标签,它自动从训练数据中学习知识,建立模型。
  • 半监督学习是监督学习和无监督学习相结合的一种学习方法。

在这里插入图片描述

五、机器学习的学习路线

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/3093.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++并发编程

基本介绍 线程 C98标准没有直接提供原生的多线程支持 在C98中&#xff0c;并没有像后来的C11标准中那样的<thread>库或其他直接的多线程工具 然而&#xff0c;这并不意味着在C98中无法实现多线程。开发者通常会使用平台特定的API&#xff08;如Windows的线程API或POSI…

vue3中的ref、isRef、shallowRef、triggerRef和customRef

1.ref 接受一个参数值并返回一个响应式且可改变的 ref 对象。 ref 对象拥有一个指向内部值的单一属性 .value property &#xff0c;指向内部值。 例&#xff1a;此时&#xff0c;页面上的 str1 也跟着变化 <template><div><button click"handleClick&quo…

严厉打击侵犯知识产权行为!法院公开审理假冒半岛超声炮知产刑事案件

随着医美行业的蓬勃发展&#xff0c;一些不法分子利用消费者对变美的渴望&#xff0c;制售假冒半岛超声炮&#xff0c;严重侵犯了消费者的合法权益&#xff0c;也破坏了医美市场的健康发展。为了维护市场秩序&#xff0c;保障消费者权益&#xff0c;各地相关监管部门持续加大监…

QT从入门到实战x篇_22_番外1_Qt事件系统

文章目录 1. Qt事件系统简介1.1 事件的来源和传递1.2 事件循环和事件分发1.2.1 QT消息/事件循环机制1.2.1.1 机制解释1.2.1.2 两个问题 1.2.2 事件分发 2. 事件过滤基础2.1 什么是事件过滤器&#xff08;Event Filter&#xff09;&#xff1f;2.2 如何安装事件过滤器 3. 事件过…

<计算机网络自顶向下> 路由器组成

路由器结构概况 路由&#xff1a;运行路由选择算法/协议&#xff08;RIP, OSPF, BGP&#xff09;生成路由表转发&#xff1a;从输入到输出链路交换数据包-根据路由表进行分组的转发中间的fabric是用来接收输入的分组交给输出端口的&#xff0c;完成局部的转发&#xff08;根据…

在广东珠海,持有软考等证书最高可获6位数补贴,快来申报!

近日&#xff0c;横琴粤澳深度合作区执行委员会印发《横琴粤澳深度合作区支持人才发展若干措施》&#xff08;以下简称《若干措施》&#xff09;及三项配套实施办法&#xff0c;鼓励企业“招贤纳士”&#xff0c;加强琴澳人才协同培养。目前&#xff0c;2024年第一批博士后专项…

星汉未来AI应用市场:一站式AI解决方案平台

星汉未来AI应用市场&#xff1a;一站式AI解决方案平台 在人工智能技术日益渗透到各行各业的今天&#xff0c;星汉未来AI应用市场为我们提供了一个集创新与实用于一体的平台。下面&#xff0c;我将为您详细介绍这个平台的各个方面。 平台特色 星汉未来AI应用市场是一个面向未…

Keil出现警告:warning: #223-D: function “XXX“ declared implicitly

这个警告表明编译器在函数使用之前没有找到函数的显式声明或定义。这通常发生在函数被使用之前没有在当前文件中进行声明或定义&#xff0c;或者头文件未正确包含。 解决方式&#xff1a; 在当前文件中添加函数声明&#xff1a;在使用函数之前&#xff0c;在当前文件中添加函…

maixcam如何无脑运行运行别人的模型(以安全帽模型为例)

maixcam如何无脑运行运行别人的模型&#xff08;以安全帽模型为例&#xff09; 本文章主要讲如何部署上传的模型文件&#xff0c;以及如果你要把你模型按照该流程应该怎么修改&#xff0c;你可以通过该文章得到你想要的应该&#xff0c;该应用也包含的退出按钮&#xff0c;是屏…

书生·浦语大模型-第七节课笔记/作业

笔记 还没看到视频 但评测对于模型优化是非常重要的&#xff0c;指引了模型选择与优化的方向 评测过程 大海捞针&#xff1a; 通过将关键信息随机插入一段长文本的不同位置&#xff0c;形成大语言模型 (LLM) 的Prompt&#xff0c;通过测试大模型是否能从长文本中提取出关键…

协议的定制之序列化与反序列化 | 守护进程

目录 一、再谈协议 二、序列化与反序列化 三、网络计算器的简单实现 四、网络计算器完整代码 五、代码改进 六、守护进程 七、Json序列化与反序列化 八、netstat 一、再谈协议 是对数据格式和计算机之间交换数据时必须遵守的规则的正式描述。简单的说了&#xff0c;网络…

佛山南海区桂城珠宝玉石电商协会举办2023年度电商企业颁奖典礼

4月24日&#xff0c;佛山市南海区桂城珠宝玉石电商协会隆重举办第一届三次会员大会暨2023年度电商企业颁奖典礼&#xff0c;广邀各级政府领导、行业组织、珠宝商场、电商企业、珠宝直播达人以及新闻媒体嘉宾&#xff0c;共见璀璨&#xff0c;共话新发展、新机遇。这是平洲玉器珠…

docker 启动时报错

docker 启动时报如下错误 Job for docker.service failed because the control process exited with error code. See "systemctl status docker.service" and "journalctl -xe" for details 因为安装docker时添加了镜像源 解决方案&#xff1a; mv /etc/…

pwn--realloc [CISCN 2019东南]PWN5

首先学习一下realloc这个函数&#xff0c;以下是文心一言的解释&#xff1a; realloc是C语言库函数之一&#xff0c;用于重新分配内存空间。它的主要功能是调整一块内存空间的大小。当需要增加内存空间时&#xff0c;realloc会分配一个新的更大的内存块&#xff0c;然后将原内…

冯唐成事心法笔记 —— 知世

系列文章目录 冯唐成事心法笔记 —— 知己 冯唐成事心法笔记 —— 知人 冯唐成事心法笔记 —— 知世 冯唐成事心法笔记 —— 知智慧 文章目录 系列文章目录PART 3 知世 成事者的自我修养怎样做一个讨人喜欢的人第一&#xff0c;诚心第二&#xff0c;虚心 如何正确看待别人的评…

超越边界:如何ChatGPT 3.5、GPT-4、DALL·E 3和Midjourney共同重塑创意产业

KKAI&#xff08;kkai人工智能&#xff09;是一个整合了多种尖端人工智能技术的多功能助手平台&#xff0c;融合了OpenAI开发的ChatGPT3.5、GPT4.0以及DALLE 3&#xff0c;并包括了独立的图像生成AI—Midjourney。以下是这些技术的详细介绍&#xff1a; **ChatGPT3.5**&#xf…

edge浏览器新建标签页闪退怎么解决?(打不开标签页)

文章目录 问题描述方法一方法二 问题描述 昨天开始出现这个问题&#xff0c;每次点击 打开一个新的标签页&#xff0c;马上就闪退了。 既然是新建标签页的问题&#xff0c;那么就在设置里看一下新建标签页发生了什么问题。 方法一 进入设置&#xff0c;会发现&#xff0c;有…

信号分解 | SSA(奇异谱分析)-Matlab

分解效果 SSA(奇异谱分析) 信号分解 | SSA(奇异谱分析)-Matlab 奇异谱分析(Singular Spectrum Analysis,简称SSA)是一种用于时间序列分析的方法。它可以用于数据降维、信号分解、噪声去除和预测等应用。 SSA的基本思想是将时间序列分解为若干个成分,每个成分代表着不同的…

语言模型的发展

文章目录 语言模型的发展历程大语言模型的能力特点大语言模型关键技术概览大语言模型对科技发展的影响 语言模型的发展历程 一般来说&#xff0c;语言模型旨在对于人类语言的内在规律进行建模&#xff0c;从而准确预测词序列中未来&#xff08;或缺失&#xff09;词或词元&…

Dubbo应用可观测性升级指南与踩坑记录

应用从dubbo-3.1.*升级到dubbo-*:3.2.*最新稳定版本&#xff0c;提升应用的可观测性和度量数据准确性。 1. dubbo版本发布说明(可不关注) dubbo版本发布 https://github.com/apache/dubbo/releases 【升级兼容性】3.1 升级到 3.2 2. 应用修改点 应用一般只需要升级dubbo-s…