机器学习: 绪论(基础概念)

文章目录

  • 一、机器学习做什么
  • 二、机器学习的基本术语
    • 2.1、数据相关
      • 2.1.1、数据集
      • 2.1.2、特征(Feature)
      • 2.1.3、样本空间(Sample Space)
    • 2.2、任务相关
      • 2.2.1、分类
      • 2.2.2、回归
      • 2.2.3、聚类
      • 2.2.4、监督学习和无监督学习
  • 三、机器学习思想
    • 3.1、泛化能力!
    • 3.2、假设空间和版本空间!
    • 3.3、归纳偏好!
      • 3.3.1、解释
  • 四、外话
    • 4.1、泛化
      • 4.1.2、泛化的关键
      • 4.1.3、提高泛化能力

若考虑所有潜在的问题,则所有学习算法都一样好.要谈论算法的相对优劣,必须要针对具体的学习问题;在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用.

一、机器学习做什么

  机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。机器学习所研究的主要内容是关于在计算机上从数据中产生“模型 " (model)的算法,即 “学习算法”(learning algorithm)。可以说机器学习是研究关于 “学习算法”的学问。

  • 通俗来讲,例如经过我们的百般阅历,我们可以从一个人的行为可以判断一个人的好坏,是否是学霸,是否是神经病,这是我们通过不断的学习,认识获得的能力。
  • 同样的,计算机通过数据 学习 产生 这种能够判断事物类别的模型,就属于一种机器学习。
  • 机器学习是研究关于 “学习算法” 的学问。这里的学习并不是动词,而是一个形容词。可以理解为,机器学习这一领域是一种研究 用什么样的算法 能更好的学习到已有数据中的规律,从而产生模型 的学问,而这些算法都是学习算法,也叫作机器学习算法。具有学习性质的算法。

用“模型”泛指从数据中学得的结果。

二、机器学习的基本术语

2.1、数据相关

  • 数据集
  • 示例/样本/特征向量(同一概念)
  • 属性/特征/属性空间/样本空间/输入空间
  • 标记/标签/标记空间/输出空间
    • 通俗来讲,数据集就是你所拥有的全部数据,即全部样本(特征向量);
    • 样本(特征向量)是这些数据中的某一项及其属性,比如这里的瓜1;
    • 属性(特征)是这些样本中的某一特征,比如这里的色泽属于瓜的某一个特征,每个特征上有一个值,称为属性值(特征值);
    • 而样本空间是所有属性可能取值构成的集合,张成的空间,这个空间上包含了瓜的所有可能性。就和随机数学里面的随机试验的样本空间差不多。
    • 在一些“预测”模型中,需要一些标记,即这些瓜的类别,好瓜还是坏瓜,好人还是坏人,神经病还是正常人。所有标记的集合是标记空间。
      在这里插入图片描述

2.1.1、数据集

  想象一下,我们站在一个充满各种西瓜的市场中:有的西瓜青绿色,有的乌黑;有的根蒂蜷缩,有的稍显蜷曲;敲击时,有的响声浑厚,有的则显得沉闷。如果我们将每一个西瓜的这些特征,连同我们对它是否为好瓜的评价或者价格,记录下来,那么这些记录的集合就构成了我们的数据集。在这个数据集中,每一条记录描述了一个西瓜的独特特征,称为一个样本。样本中关于是否是好瓜的判断,则是我们所说的标签,而所有可能的标签(如好瓜与不好瓜)构成了标签空间
  当我们把这些样本用来训练机器学习模型时,这些数据就被称为训练数据,而单个样本则成为一个训练样本。所有这些训练样本共同组成了我们的训练集

2.1.2、特征(Feature)

  在描述西瓜时,我们提到了“色泽”、“根蒂”和“敲声”。这些用来反映西瓜在某方面表现或性质的事项,就是所谓的特征。特征是我们用来描绘和区分每一个西瓜的工具,而特征的数量,即我们用来描述西瓜的属性数量,被称为样本(或特征向量)的维数

2.1.3、样本空间(Sample Space)

  如果我们将每个特征视为一维空间,那么所有的特征共同构成的空间,就是我们的样本空间。比方说,以“色泽”、“根蒂”和“敲声”为三个坐标轴,我们可以将它们想象成构建了一个三维空间,用以描述西瓜的世界。在这个空间中,每个西瓜都可以找到一个唯一的坐标位置,这个位置由其特征值组成的向量确定,我们称之为特征向量
  特征向量实际上就是将特征概念包含进去的样本,即样本实际上就是特征向量。

2.2、任务相关

2.2.1、分类

预测的是离散值的学习任务。

如果只涉及到两个类别,则称为二分类任务。两类一个称为正类,另一个称为负类(反类)。
如果涉及到多个类别,则称为多分类任务。

2.2.2、回归

预测的是连续值的学习任务。分类和回归的区别仅在此。
在这里插入图片描述

2.2.3、聚类

在这里插入图片描述

2.2.4、监督学习和无监督学习

根据是否有标记,机器学习大致划分为两大类:监督学习和无监督学习

  • 分类和回归监督学习的代表,因为它们都是提前有标记的。
  • 聚类无监督学习的代表,因为它通常是没有标记的,并且我们是通过不同特征向量之间特征的潜在规律进行划分成簇的,划分之后的类别,并不为我们事先知晓,而是机器自动学习出来的规律类别。
    在这里插入图片描述

三、机器学习思想

3.1、泛化能力!

  机器学习的目标是使学得的模型能很好地适用于新样本而不是仅仅在训练样本上工作得很好。 机器学习需要有从已有样本中归纳学习的能力,以此来适用于没有见过的样本。学习的目的是泛化。
  学得模型适用于新样本的能力,称为泛化能力。
在这里插入图片描述
  泛化(Generalization)是指模型对未见过的新数据的处理能力,即模型学习到的规律在新数据上的适用性。一个好的机器学习模型不仅能够在训练数据上表现良好,更重要的是能够在新的、未见过的数据上也能保持这种良好表现。泛化能力强的模型能够从训练数据中学习到普遍适用的规律,而不是仅仅记住训练数据的特点和噪声,后者的现象被称为过拟合(Overfitting)。

3.2、假设空间和版本空间!

  为了理解3.3,我们需要先理解假设,假设空间,版本空间的概念。

  • 假设(Hypothesis):在机器学习中,假设是根据训练集归纳出的一种规律或模式。这种规律是模型用来对新数据做出预测的依据。简单来说,假设就是模型认为最可能描述数据真实关系的规则。而这个特定问题真正潜在的规律称为真实,机器学习 从训练集中学习到的规律称为假设。
  • 假设空间(Hypothesis Space):假设空间包含了所有可能的假设。*这些假设是根据模型的结构和我们选择的特征而定义的,它包括了所有模型可能采用的规则或模式来解释数据。假设空间的大小和复杂度取决于模型的复杂性和特征的数量。这里的假设空间是抛开训练集不管的,所有可能数据集中存在的规律。
  • 版本空间(Version Space):是在假设空间中能够使得与训练集一致的规律集合,这里的规律抽象为一个假设。同一个训练集,可能不同机器学习算法可以学习出不同假设,也是因为同一个训练集存在一个版本空间。
    在这里插入图片描述

3.3、归纳偏好!

  既然同一个训练集可能有多种规律和它匹配,那我们该怎么做呢?
  对于一个具体的学习算法而言,它必须要产生一个模型.这时,学习算法本身的“偏好”就会起到关键的作用。 机器学习算法在学习过程中对某种类型假设的偏好,称为 “归纳偏好”(inductive bias),或简称为“偏好”。(之前说过归纳 即学习规律)。并且我们的学习算法必须有某种偏好,才能产出它认为“正确”的模型.
在这里插入图片描述

3.3.1、解释

  归纳偏好(Inductive Bias)是机器学习算法在面对同一个训练集时倾向于选择某种特定假设的倾向性或偏好。由于训练数据通常无法完全确定目标函数,所以机器学习算法必须利用归纳偏好来做出选择,决定它认为最可能的假设是什么。这种偏好影响着模型的泛化能力,即模型对未见过数据的预测能力。

  • 为什么存在归纳偏好? 因为在实践中,对于给定的训练数据集,可能有多个或者无数个假设与训练数据一致,但这些假设对于未见过的数据的预测可能完全不同。归纳偏好帮助算法在这些可能的假设中做出选择。

  • 归纳偏好的例子:假设我们有两种算法,一种是梯度提升树(Gradient Boosting),另一种是随机森林(Random Forest)。尽管两者都是决策树的集成方法,但它们的归纳偏好不同。梯度提升树通过逐步减少模型误差的方式构建树,倾向于更加关注错误分类的样本;而随机森林通过构建多个独立的树并对它们的结果进行平均或多数投票来工作,倾向于提高整体的稳定性和减少过拟合。这两种方法因其不同的偏好,在不同的数据集和问题上表现出不同的效果。

  • 归纳偏好的重要性:选择哪种机器学习算法,并不仅仅是技术上的选择,实际上也是基于对问题本身先验知识的一种假设。因为不同的算法由于其内在的归纳偏好,可能在某些类型的数据上表现更好,在其他数据上则不然。因此,理解并选择与你面对的问题相匹配的算法的归纳偏好,是提高模型性能的关键。

四、外话

4.1、泛化

  在机器学习领域,泛化(Generalization) 是指模型对未见过的新数据的处理能力,即模型学习到的规律在新数据上的适用性。一个好的机器学习模型不仅能够在训练数据上表现良好,更重要的是能够在新的、未见过的数据上也能保持这种良好表现。泛化能力强的模型能够从训练数据中学习到普遍适用的规律,而不是仅仅记住训练数据的特点和噪声,后者的现象被称为过拟合(Overfitting)

4.1.2、泛化的关键

  • 泛化误差(Generalization Error):通常指模型在新的数据集上的预测误差。理想情况下,我们希望模型的泛化误差尽可能小,这意味着模型对未知数据的预测能力较强。
  • 过拟合(Overfitting)欠拟合(Underfitting):过拟合是指模型在训练数据上表现异常良好,但在新数据上表现不佳的现象;而欠拟合则是指模型在训练数据上就表现不佳,导致在新数据上的表现也不理想。泛化的目标是在这两者之间找到平衡点。

4.1.3、提高泛化能力

为了提高模型的泛化能力,研究人员和工程师可能会采用以下一些策略:

  • 数据增强(Data Augmentation):通过对训练数据进行变换和扩充,增加模型训练过程中的数据多样性。
  • 正则化(Regularization):通过引入额外的信息(如权重的大小或复杂度)来限制模型的复杂度,防止过拟合。
  • 交叉验证(Cross-validation):通过将数据集分为多个小组,然后使用其中一部分进行训练、另一部分进行验证,可以更准确地评估模型的泛化能力。
  • 模型简化:简化模型的复杂度,例如减少网络层数或参数的数量,有时可以防止过拟合,从而提高泛化能力。
  • 集成学习(Ensemble Learning):通过组合多个模型的预测来提高整体模型的泛化能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/786397.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智乃想考一道鸽巢原理

题目 思路&#xff1a; #include <bits/stdc.h> using namespace std; #define int long long #define pb push_back #define fi first #define se second #define lson p << 1 #define rson p << 1 | 1 const int maxn 1e6 5, inf 1e9, maxm 4e4 5; co…

VSCode 设置vue2模板

点击设置 > 用户代码片段 > 输入Vue &#xff08;打开vue.json&#xff09;> 将代码复制内 "Print to console": {"prefix": "<","body": ["<template>"," <div class$1></div>"…

Gauss到底是不是国产数据库

华为GaussDB数据库深度解析 引言 在数字化转型的浪潮中&#xff0c;数据成为企业最宝贵的资产之一。如何高效地管理和利用这些数据&#xff0c;成为企业面临的一大挑战。数据库作为数据存储和管理的核心系统&#xff0c;其性能、安全性、可用性和扩展性等特性直接影响到企业的…

wpf ContextMenu

ContextMenu上下文菜单 ContextMenu 在 WPF 中是一个非常有用的控件&#xff0c;它提供了一个在用户执行特定操作&#xff08;如右键点击&#xff09;时显示的菜单。ContextMenu 可以附加到几乎所有的 WPF 控件上&#xff0c;使得当用户与这些控件互动时&#xff0c;能够提供一…

苹果App上架指南

苹果上架要求是苹果公司对于提交应用程序到苹果商店上架的要求和规定。这些要求主要是为了保证用户体验、应用程序的质量和安全性。以下是苹果上架要求的详细介绍&#xff1a;1. 应用程序的内容和功能必须符合苹果公司的规 苹果上架要求是苹果公司对于提交应用程序到苹果商店上…

【随笔】Git -- 高级命令(中篇)(七)

&#x1f48c; 所属专栏&#xff1a;【Git】 &#x1f600; 作  者&#xff1a;我是夜阑的狗&#x1f436; &#x1f680; 个人简介&#xff1a;一个正在努力学技术的CV工程师&#xff0c;专注基础和实战分享 &#xff0c;欢迎咨询&#xff01; &#x1f496; 欢迎大…

文本直接生成2分钟视频,即将开源模型StreamingT2V

Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出了StreamingT2V视频模型。通过文本就能直接生成2分钟、1分钟等不同时间&#xff0c;动作一致、连贯、没有卡顿的高质量视频。 虽然StreamingT2V在视频质量、多元化等还无法与Sora媲美&#xff0c;但在高速运…

【项目技术介绍篇】若依项目代码文件结构介绍

作者介绍&#xff1a;本人笔名姑苏老陈&#xff0c;从事JAVA开发工作十多年了&#xff0c;带过大学刚毕业的实习生&#xff0c;也带过技术团队。最近有个朋友的表弟&#xff0c;马上要大学毕业了&#xff0c;想从事JAVA开发工作&#xff0c;但不知道从何处入手。于是&#xff0…

深入剖析Xen与KVM虚拟化技术及其架构特点

引言 在现代数据中心与云计算领域中&#xff0c;虚拟化技术已经成为提升资源利用率、增强灵活性与可扩展性的重要基石。其中&#xff0c;Xen与KVM作为两种备受瞩目的开源虚拟化解决方案&#xff0c;分别以其独特的设计理念与技术创新引领着行业的进步与发展。Xen源自剑桥大学的…

SQLite全文搜索引擎:实现原理、应用实践和版本差异

文章目录 一、实现原理1.1 倒排索引1.2 虚拟表 二、应用在工程上的实施方法2.1 创建FTS虚拟表2.2 插入数据2.3 全文搜索2.4 关联普通表2.5 更新和删除数据2.6 优化FTS虚拟表2.7 小结 三、FTS3、FTS4和FTS5的区别3.1 FTS33.2 FTS43.3 FTS53.4 小结 四、更新SQLite的FTS版本的步骤…

主键的创建、添加、删除操作

主键也是索引的一种 主关键字(primary key)是表中的一个或多个字段&#xff0c;它的值用于唯一的标识表中的某一条记录。在两个表的关系中&#xff0c;主关键字用来在一个表中引用来自于另一个表中的特定记录。主关键字是一种唯一关键字&#xff0c;表定义的一部分。一个表的主…

基于深度学习的停车场车辆检测算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 上图测试结果如下图所示&#xff1a; 2.算法运行软件版本 matlab2022a 3.部分核心程序 image imread(image_test\test.jpg); image2 image;%图…

2022-04-10作业

文章目录 BC131-kiki学程序设计基础BC123-小乐乐找最大数BC27-计算球体的体积BC25-计算体重指数 BC131-kiki学程序设计基础 BoBo老师教了KiKi学习程序设计基础&#xff0c;他知道C是带类的C语言&#xff0c;这个“”主要包含三部分内容&#xff1a;对C语言进行语法上的扩展、面…

第21章-直连路由和静态路由

1. 直连路由 1&#xff09;定义&#xff1a;指路由器接口直接相连的网段的路由&#xff1b; 2&#xff09;特点&#xff1a; ① 不需要特别的配置&#xff0c;双UP(物理层数据链路层)&#xff1b; ② 在路由器的接口上配置IP地址即可&#xff1b; ③ 开机自动产生&#xff1b; …

常用的设计模式(单例模式和工厂模式)

设计模式 单例模式 私有构造函数&#xff0c;防止外部直接实例化静态成员函数&#xff0c;返回唯一实例的引用静态局部变量&#xff0c;在程序生命周期内 #include<iostream> #include<map> using namespace std;class shoppingCartManager { public:// 获取购物…

Scala第十六章节(泛型方法, 类, 特质的用法、泛型上下界、协变, 逆变, 非变的用法以及Scala列表去重排序案例)

Scala第十六章节 章节目标 掌握泛型方法, 类, 特质的用法了解泛型上下界相关内容了解协变, 逆变, 非变的用法掌握列表去重排序案例 1. 泛型 泛型的意思是泛指某种具体的数据类型, 在Scala中, 泛型用[数据类型]表示. 在实际开发中, 泛型一般是结合数组或者集合来使用的, 除此…

C# 中 == 和 Equals 的区别

在C#中&#xff0c; 和 Equals 都是用于比较两个对象是否相等的操作符或方法&#xff0c;但它们之间存在着显著的区别。这些区别主要体现在它们的操作级别、用途以及如何处理不同类型的对象比较上。 1. 操作级别和用途 操作符&#xff1a; 是一个操作符&#xff0c;用于比较…

vulhub中Apache solr XML 实体注入漏洞复现(CVE-2017-12629)

Apache Solr 是一个开源的搜索服务器。Solr 使用 Java 语言开发&#xff0c;主要基于 HTTP 和 Apache Lucene 实现。原理大致是文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。此次7.1.0之前版本总共爆出两个漏洞&#xff1a;XML…

Day13Day14_学点儿HTML_基本标签、div和span、table、form

1 基本标签 HTML&#xff1a;超文本标记语言 定义页面结构 CSS&#xff1a; 层叠样式表 页面显示的样式、排版 BootStrap JS&#xff1a; JavaScript 界面交互(动态交互、逻辑) JQuery <!--~ 适度编码益脑&#xff0c;沉迷编码伤身&#xff0c;合理安排时…

SBCFormer:能够在单板计算机上以每秒1帧的速度进行全尺寸ImageNet分类的轻量级网络

摘要 https://arxiv.org/ftp/arxiv/papers/2311/2311.03747.pdf 计算机视觉在解决包括智能农业、渔业和畜牧业管理等不同领域的实际问题中变得越来越普遍。这些应用可能不需要每秒处理许多图像帧&#xff0c;因此从业者倾向于使用单板计算机&#xff08;SBCs&#xff09;。尽管…