机器学习绪论

目录

第1关:什么是机器学习

相关知识

题目答案 

第2关:机器学习的常见术语

相关知识

假设空间

归纳偏好

题目答案

第3关:机器学习的主要任务

相关知识

分类

回归

聚类

题目答案


第1关:什么是机器学习

相关知识

相信大家一定都非常喜欢吃西瓜,有经验的同学都知道如果一个西瓜色泽青绿、根蒂蜷缩、敲声浊响,那么就能判断这是一个正熟的好瓜。那么,为什么通过色泽、根蒂、敲声,这几个特征就能帮我们做出相当好的判断呢?因为我们吃过,看过很多好瓜,累积了这方面很多的经验,而通过对经验的利用,就能对新的情况做出有效的决策

上面对经验的利用是靠我们人类自身来完成的,计算机能帮忙吗?

机器学习正是这么一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”的形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生的“模型”的算法,即“学习算法”。有了学习算法,我们就把经验数据提供给它,它就能基于这些数据产生模型,在面对新的情况时,模型会给我们提供相应的判断。

题目答案 

第2关:机器学习的常见术语

相关知识

我们已经知道了,机器学习是利用数据,从数据中归纳出规律,并用来对新事物进行预测。所以,机器学习首先要有数据,假设我们收集了一份关于西瓜的数据:

  • 我们把数据中的每一行称为一个示例或样本

  • 反映事件或对象在某方面的表现或性质的事项,如:色泽、根蒂、敲声,称为属性或特征

  • 属性上的取值,例如:青绿、乌黑。称为属性值或特征值

  • 我们把一个示例(样本)称为一个特征向量

一般地,令 D={x1​,x2​,..,xm​} 表示包含 m 个示例的数据集,每个示例由 d 个属性描述(例如上面的西瓜数据使用了三个属性),则每个示例:

xi​=(xi1​;xi2​;...;xid​),是 d 维样本空间X中的一个向量。

xi​∈X,其中xi​j是xi​在第 j 个属性上的取值。

d 称为样本xi​的维数

从数据中学得模型的过程称为“学习”或“训练,这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为“训练数据”,其中每个样本称为一个“训练样本”,训练样本组成的集合称为“训练集”,学习过程就是为了找出或逼近真相。

假设空间

假设空间在已知属性和属性可能取值的情况下,对所有可能满足目标的情况的一种毫无遗漏的假设集合

接下来举个例子来说明什么是假设空间。在选择配偶时我们可能有以下几个指标:

  • 体型 : 肥胖,匀称,过瘦;

  • 财富 : 富有,一般,贫穷;

  • 性子 : 急,不急不慢,慢。

现在我们要构建一个合适的假设空间来构建一个择偶观:

  • 对于体型来说有肥胖均匀过瘦 3 种,也有可能价值观里认为这个无关紧要,所以有4种可能。
  • 对于财富来说有富有一般以及贫穷 3 种可能,也有可能价值观里认为这个无关紧要,所以有4种可能。
  • 对于性子来说有不急不慢以及 3 种可能,也有可能价值观里认为这个无关紧要,所以有4种可能。
  • 最后再加上一个极端的情况,也就是体型财富以及性子这 3 个评判准则选出来的都不是想要的配偶。

所以假设空间的规模大小为4*4*4+1=65。 

归纳偏好

归纳偏好是机器学习算法在学习过程中对某种类型假设的偏好。说白了就是“什么样的模型更好”这一问题。

以韦小宝的 7 个老婆为例,这 7 个老婆均满足小宝的要求,因此构成了大小为 7 的假设空间。(实际上,假设空间的大小一定是无穷大的。为了说明问题,我们暂时以 7 为大小)。那么,如何衡量哪一个假设空间中哪一个假设函数(老婆)最好呢?如果以温柔体贴为偏好来选,当然是小双;如果以小宝的迷恋为偏好来讲,假设函数就是阿珂。说白了,归纳偏好就是一个用于挑选假设函数的基准。

因此归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”

而在具体的现实问题中,学习算法本身所做的假设是否成立,也即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

题目答案

第3关:机器学习的主要任务

相关知识

  • 分类是机器学习的一项主要任务,主要是将实例数据划分到合适的分类中
  • 机器学习的另外一项任务是回归,主要是预测数值型的数据,比如通过数据值拟合曲线等。
  • 分类和回归属于监督学习,这类算法必须知道预测什么,即目标变量的分类信息。与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程称为“聚类”

分类

这是一系列关于西瓜的数据,这里的每个实体,或者每一行被称为一个样本或数据点,而每一列(用来描述这些实体的属性)则被称为特征。假如说,我们现在想通过色泽、根蒂、敲声这几个特征来区分一个西瓜是好瓜与不是好瓜,这就是一个分类问题。分类问题的目标是预测类别标签。在这个例子中,“是”与“否”则是预测类别的两个不同的标签。分类问题有时可分为二分类和多分类,西瓜的例子则是一个二分类问题,多分类指的是数据不止两个类别,它有多个类别。

回归

回归任务的目标是预测一个连续值,编程术语叫作浮点数。假如我们现在手里得到的是如下数据:

我们要通过色泽、根蒂、敲声来预测西瓜的价格,这就是一个回归问题。区分分类任务和回归任务有一个简单方法,就是看输出是否具有某种连续性。如果在可能的结果之间具有连续性,那么它就是一个回归问题,比如说价格。

聚类

聚类属于无监督学习,它是指我们的数据只有输入,没有输出,并需要从这些数据中提取知识。聚类算法将数据划分成不同的组,每组包含相似的样本。比如说:

我们现在手里的数据只有色泽、根蒂、敲声这几个特征,我们通过这三个特征,把性状相似的西瓜分到一个组,这就是一个聚类问题。聚类问题与分类问题的本质区别就是有没有标签

题目答案

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/109044.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ASP.NET framework升级core .NET 6.0

C# ASP.NET framework 升级core .NET 6.0 .NET 7.0 .NET 8.0 或者以上 .net framework、.net standard、.net core .net 5/6/7/8 区别_.net 6.0和.net framework的区别-CSDN博客 using System.Web.Http; using HttpPostAttribute Microsoft.AspNetCore.Mvc.HttpPostA…

网络解析(二)

ICMP 报文有很多的类型,不同的类型有不同的代码。最常用的类型是主动请求为 8,主动请求的应答为 0。 ICMP 相当于网络世界的侦察兵。我讲了两种类型的 ICMP 报文,一种是主动探查的查询报文,一种异常报告的差错报文; ping 使用查询报文,Traceroute 使用差错报文。 IP和…

协同办公系统OA实施过程中需要注意的细节

随着企业对于高效、便捷的办公方式的需求增加,协同办公系统OA正逐渐成为企业信息化建设的热门选择。然而,协同办公系统OA的实施并非一蹴而就,需要企业在实施过程中注意一系列的细节。 一、规划与需求分析 企业应根据自身的业务需求和发展战略…

智能物联网解决方案:蓝牙IOT主控模块打造高效监测和超低功耗

物联网蓝牙模块,无论单模,还是双模,或者双模音频的选择,如下文说描述: 蓝牙芯片模块市场的百花齐放,也带来的工程师在选型时碰到很大的困难,但是无论是做半成品,还是做成品&#xf…

【数字图像处理笔记】01-数字图像基础

01-数字图像基础 图像类型 黑白(二值)图像 只有黑白两种颜色的图像称为黑白图像或单色图像,图像的每个像素只能是黑或白,没有中间的过渡,故又称为二值图像。 二值图像的像素值只能为0或1,图像中的每个像素值用1位存储。图像矩阵中…

钢铁异常分类140篇Trans 学习笔记 小陈读paper

钢铁异常分类 对比学习 比较好用 1.首先,为每个实例生成一对样本, 来自同一实例的样本被认为是正例, 来自不同实例的样本被认为是负例。 2.其次,这些样本被馈送到编码器以获得嵌入。 3.在对比损失[16]的影响下, …

【机器学习】逻辑回归

文章目录 逻辑回归定义损失函数正则化 sklearn里面的逻辑回归多项式逻辑回归 逻辑回归 逻辑回归,是一种名为“回归”的线性分类器,其本质是由线性回归变化而来的,一种广泛使用于分类问题中的广义回归算法。 线性回归是机器学习中最简单的的…

单片机TDL的功能、应用与技术特点 | 百能云芯

在现代电子领域中,单片机(Microcontroller)是一种至关重要的电子元件,广泛应用于各种应用中。TDL(Time Division Multiplexing,时分多路复用)是一种数据传输技术,结合单片机的应用&a…

【精华系列】跟着Token学习数据挖掘-1

Hello,大家好!这里是Token的博客,欢迎您的到来 今天整理的笔记时数据挖掘方向的基础入门,了解数据分析使用的一些基础的Python库,为后面的数据处理做好准备 01-数据分析工具介绍 准备:Python的安装、平台搭…

二叉树的创建和遍历

之前我们在学习二叉树的遍历的时候都是先手动创建出一个二叉树,然后再前中后序的遍历, 但实际中,是给你一个数组里面存的数,然后把他以(前中后)的遍历储存创建为一个二叉树 思路: 想要创建二叉树…

数据结构之顺序表的模拟实现

💕"世事犹如书籍,一页页被翻过去。人要向前看,少翻历史旧账。"💕 作者:Mylvzi 文章主要内容:数据结构之顺序表的模拟实现 /*** Created with IntelliJ IDEA.* Description:* User: 绿字* Date:…

Python —— 特殊场景处理(鼠标、键盘操作文件上传)

1、鼠标操作 1、概述 使用Selenium的ActionChains类来模拟鼠标操作,导入模块如下: # 导入模块 from selenium.webdriver.common.action_chains import ActionChains 通过ActionChains对象可以发起鼠标左键、右键、移动鼠标等操作,最后使用…

计算机视觉:池化层的作用是什么?

本文重点 在深度学习中,卷积神经网络(CNN)是一种非常强大的模型,广泛应用于图像识别、目标检测、自然语言处理等领域。而池化层作为CNN中的一个关键步骤,扮演着优化神经网络、提升深度学习性能的重要角色。本文将深入探讨池化层的作用及其重要性,帮助读者更好地理解和应…

linux进程间通讯--信号量

1.认识信号量 方便理解:信号量就是一个计数器。当它大于0能用,小于等于0,用不了,这个值自己给。 2.特点: 信号量用于进程间同步,若要在进程间传递数据需要结合共享内存。信号量基于操作系统的 PV 操作&am…

英特尔 SGX 技术概述

目录 介绍概述指示结构Memory安全区页面缓存Enclave Page Cache (EPC)安全区页面缓存映射Enclave Page Cache Map (EPCM) Memory ManagementStructures页面信息Page Information (PAGEINFO)安全信息Security Information (SECINFO)分页加密元数据Paging …

大型公共建筑能耗监测与信息管理系统研究及产品选型

摘要:文章通过阐述大型公共建筑能耗现状,突出大型公共建筑实施节能监管的必要性,并在系统总结运用技术手段实施建筑能耗监测的基础上,介绍了江苏省建筑能耗监测系统研究过程中的技术创新和应用情况。 关键词:公共建筑…

【数据挖掘】数据挖掘、关联分析、分类预测、决策树、聚类、类神经网络与罗吉斯回归

目录 一、简介二、关于数据挖掘的经典故事和案例2.1 正在影响中国管理的10大技术2.2 从数字中能够得到什么?2.3 一个网络流传的笑话(转述)2.4 啤酒与尿布2.5 网上书店关联销售的案例2.6 数据挖掘在企业中的应用2.7 交叉销售 三、数据挖掘入门3.1 什么激发了数据挖掘…

深度丨券商如何落地基于客户旅程编排的陪伴式服务?

金融行业的本质是服务行业。现阶段,传统券商为客户提供的通道服务高度依赖于证监会颁发的牌照,难以通过差异化的服务给客户提供价值。而伴随着引流开户成本高企,流量红利消失,金融行业步入存量竞争的时代,券商必须通过…

DAY 1 QT 创建QQ界面

#include "mywidget.h"MyWidget::MyWidget(QWidget *parent): QWidget(parent) {//创建一个窗口,改变窗口标签名和窗口标签图标this -> resize(640,500);//设置窗口界面大小this -> setWindowTitle("QQ登录");//设置窗口标题this -> s…

文件传输软件的挑战与发展趋势

无论是在教育、医疗、金融、媒体、政府等行业,还是在个人生活和工作中,文件传输软件都有着广泛的应用价值和意义。然而,随着信息技术的发展和数据量的增长,文件传输软件也面临着一些挑战和问题,同时也有着一些发展趋势…