生命在于学习——Python人工智能原理(2.1)

在这里插入图片描述

二、机器学习

1、机器学习的定义

机器学习是指从有限的观测数据中学习出具有一般性的规律,并利用这些规律对未知数据进行预测的方法,通俗的讲,机器学习就是让计算机从数据中进行自动学习,得到某种知识。
传统的机器学习主要关注如何学习一个预测模型,一般需要首先将数据表示为一组特征,特征的表示形式可以是连续的数值、离散的符号或其他形式,然后将这些特征输入到预测模型,并输出预测结果。

2、机器学习的步骤

当我们用机器学习来解决实际任务时,会面对多种多样的数据形式,比如声音、图像、文本等,不同数据的特征构造方式差异很大,对于图像这类数据,我们可以很自然的将其表示为一个连续的向量,而对于文本数据,因为其一般由离散符号组成,并且每个符号在计算机内部都表示为无异议的编码,所以通常很难找到合适的表示方式,所以在实际任务中使用机器学习模型一般会包含以下几个步骤:
在这里插入图片描述

(1)原始数据-数据预处理

经过数据的预处理,如去除噪声。

(2)特征提取

从原始数据中提取一些有效的特征,比如在图像分类中,提取边缘、尺度不变特征变换特征等。

(3)特征转换

对特征进行一定的加工,比如降维和升维,降维包括特证抽取和特征选择两种途径,常用的特征转换方法有主成分分析、现行判别分析等。

(4)预测-结果

机器学习的核心部分,学习一个函数并进行预测。

3、机器学习的特点

在这里插入图片描述

在一些复杂任务中,传统机器学习方法需要将一个任务的输入和输出之间人为的切割成很多子模块,每个子模块分开学习,比如一个自然语言理解人物,一般需要分词、词性标注、句法分析、语义分析、语义推理等步骤。
这种学习方式有两个问题,一是每个模块都需要单独优化,并且其优化目标和任务总体目标并不能保证一致。二是错误传播,即前一步的错误会对后续的模型造成很大的影响,这样就增加了机器学习方法在实际应用中的难度。
机器学习的每步特征处理以及预测一般都是分开进行的,传统的机器学习模型主要关注最后一步,即构建预测函数,但是实际操作过程中,不同预测模型的性能差不多,而前三步中的特征处理对最终系统的准确性有着十分关键的作用。
特征处理一般都需要人工干预完成利用人类的经验来选取好的特征,并最终提高机器学习系统的性能,因此,很多的机器学习问题变成了特征工程问题。

4、机器学习的相关名词

在这里插入图片描述

如果选取一些苹果。

(1)特征

包括颜色、大小、形状、产地、品牌。

(2)标签

标签可以是连续值,比如苹果的甜度、水分和成熟地。
标签也可以是炼制,比如好坏。

(3)样本

将标记好特征以及标签的苹果看作一个样本,也可以称为示例

(4)数据集

一组样本构成的集合称为数据集,一般将数据集分为两部分:训练集测试集。训练集中的样本是用来训练模型的,也叫训练样本,测试集中的样本是用来检验模型好坏的,也叫测试样本

(5)特征向量

我们通常使用一个D维向量x=[x1,x2,x3,…,xD]表示一个苹果所有特征构成的向量,称为特征向量,其中每一维表示一个特征,而苹果的标签通常用向量y表示。
假设训练集D由N个样本组成,其中每个样本都是独立同分布的,即独立的从相同的数据分布中抽取的,记为:
D={(x(1),y(1)),(x(2),y(2)),…,(x(n),y(n))}
给定训练集D,我们希望让计算机从一个函数集合F={f1(x)f2(x),…}中自动寻找一个最优的函数f*(x)来近似每个样本的特征向量x和标签y之间的真实映射关系。
如何寻找这个最优的函数f*(x)是机器学习的关键,一般需要通过学习算法来完成,这个寻找过程通常称为学习或训练过程。

5、机器学习的算法分类

在这里插入图片描述

按照训练样本提供的信息以及反馈方式的不同,将机器学习算法分为以下几类:

(1)监督学习

如果机器学习的目标是建模样本的特征x和标签y之间的关系,并且训练集中每个样本都有标签,你们这类机器学习称为监督学习,根据标签类型的不同,监督学习又可以分为回归问题、分类问题和结构化学习问题

a、回归

这类问题中的标签u是连续值,实数或连续整数,输出也是连续值。

b、分类

这类问题中的标签y是离散的类别,在分类问题中,学习到的模型也称为分类器。分类问题根据其类别数量又可以分为二分类和多分类问题。

c、结构化学习

此类问题是一种特殊的分类问题,在结构化学习中,标签y通常是结构化的对象,比如序列、数或图,由于结构化学习的输出空间比较大,因此我们一般定义一个联合特征空间,将x、y映射为该空间中的联合特征向量。

(2)无监督学习

是指从不包含目标标签的训练样本中自动学习到一些有价值的信息,典型的无监督学习问题有聚类、密度估计、特征学习、降维等。

(3)强化学习

是一类通过交互来学习的机器学习算法,在强化学习中,智能体根据环境的状态做出一个动作,并得到即时或延时的奖励。智能体在和环境的交互中不断学习并调整策略,以取得最大化的期望总回报。
监督学习需要每个样本都有标签,而无监督学习则不需要标签,一般而言,监督学习通常需要大量的有标签数据集,这些数据集一般都需要由人工进行标注,成本很高,所以也出现了很多弱监督学习和半监督学习的方法,希望从大规模的无标注数据中充分挖掘有用的信息,降低对标注样本数量的要求。
强化学习和监督学习的不同在于,强化学习不需要显式的以“输入/输出对”的方式给出训练样本,是一种在线的学习机制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/16836.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1分钟快速掌握JSON格式

文章目录 先说理论代码举例对象型数组型总结 先说理论 下面是JSON的几种简单数据类型: 数据类型描述数字型JavaScript中的双进度浮点类型,通常根据具体情况定义,这里是没有特殊的整形的。字符串型带双引号的Unicode,带反斜杠转义布尔型true…

图形学初识--双线性插值算法

文章目录 为什么需要双线性插值算法?双线性插值算法是什么?如何双线性插值?结尾:喜欢的小伙伴可以点点关注赞哦 为什么需要双线性插值算法? ChatGP回答: 双线性插值(bilinear interpolation&am…

AI绘画图生图有什么用?

随着AI渗透到我们生活中的各个角落,AI绘画图生图的出现,更是在艺术领域引起了广泛的关注和讨论。那么,AI绘画图生图究竟有什么作用呢? 首先,AI绘画图生图能够极大地提高创作效率。传统的绘画过程需要艺术家们花费大量的时间和精力…

2024年怎么下载学浪app视频

想要在2024年紧跟潮流,成为一名优秀的学浪用户吗?今天就让我们一起探索如何下载学浪app视频吧! 学浪视频下载工具打包 学浪下载工具打包链接:百度网盘 请输入提取码 提取码:1234 --来自百度网盘超级会员V10的分享…

第14章-蓝牙遥控小车 手把手做蓝牙APP遥控小车 蓝牙串口通讯讲解

本文讲解手机蓝牙如何遥控小车,如何编写串口通信指令 第14章-手机遥控功能 我们要实现蓝牙遥控功能,蓝牙遥控功能要使用:1.单片机的串口、2.蓝牙通信模块 所以我们先调试好:单片机的串口->蓝牙模块->接到一起联调 14.1-电脑控制小车 完成功能…

【面试题】MySQL高频面试题

谈一谈你对数据库的理解? 数据库是一个用于存储和管理数据的工具,它提供了一种结构化的方式来组织和访问数据。数据库可以存储大量的数据,并且可以通过查询语言进行检索、更新和删除数据。 数据库的主要目的是提供一个可靠的数据存储和管理…

使用docker的常用命令示例

命令描述示例注释docker run创建并启动一个容器docker run -d -p 80:80 nginx-d代表后台运行,-p代表端口映射docker ps列出正在运行的容器docker ps无docker ps -a列出所有容器,包括停止的docker ps -a-a代表列出所有容器docker stop停止一个或多个正在运…

网络工程师备考2——vlan

vlan 1、什么是VLAN? VLAN(Virtual LAN),翻译成中文是“虚拟局域网”。LAN可以是由少数几台家用计算机构成的网络,也可以是数以百计的计算机构成的企业网络。VLAN所指的LAN特指使用路由器分割的网络——也就是广播域…

简述 Vue父子組件和非父子組件的通信

Vue组件之间的通信可以分为父子组件通信和非父子组件通信两大类。下面将分别进行详细的解释: 父子组件通信 1. 父传子 方式:通过props属性进行传递。步骤: 在父组件中定义要传递的数据。在父组件的模板中,使用子组件标签并动态…

ABeam 德硕 Team Building | SDC Green Day——环保公益行动

山野好拾光 春日公益行 继上年度大连办公室Green Day活动的顺利举办,环保的理念更加深入到ABeam每一位员工的心中。春日天气晴好,西安办公室的小伙伴们也迫不及待来上一场说走就走的Green Day Outing活动。 本次环保公益行动主题为「夏日Go Green畅享山…

千亿级开源大模型Qwen110B部署实测

近日,通义千问团队震撼开源 Qwen1.5 系列首个千亿参数模型 Qwen1.5-110B-Chat。 千亿级大模型普通显卡是跑不了推理的,普通人一般也没办法本地运行千亿级大模型。 为了探索千亿级大模型到底需要计算资源,我用云计算资源部署了Qwen1.5-110B-…

谷歌AI搜索功能“翻车”,用户体验引担忧

近期,谷歌对其搜索引擎进行重大更新,推出了全新AI搜索功能“AI Overview”,试图通过人工智能技术提供更智能便捷的搜索体验,并追赶微软和OpenAI等竞争对手。然而事与愿违,这项备受期待的功能上线后却频频出错&#xff…

测试基础06:软件产品的运行环境dev、sit、test、fat、uat、pre、pro

​​​​​​​课程大纲 1、Dev开发环境 (Development environment) 使用者 开发人员使用。 用途 用于编程,版本变动很大。 外部能否访问 外部用户无法访问。 2、sit/ITE系统集成测试环境 (System Integration Testing en…

WIFI——ESP8266的一些知识

ESP8266的三种无线通讯模式: AP模式:ESP8266产生WIFI,其他设备加入该wifi 无线终端模式:别人创建wifi,ESP8266加入该wifi 混合模式:虽然是以上两种都能用,但同一时间只能用其中一个 设置AP模…

大数据的存储和处理面临哪些挑战,如何应对?

大数据的存储和处理面临以下挑战: 数据量巨大:大数据的特点之一是数据量非常庞大,存储和处理这么大规模的数据是一个挑战。传统的数据库系统可能无法满足大数据需求,需要寻找适合大规模数据处理的解决方案。 数据异构性&#xff…

30多万汉字词语押韵查询ACCESS\EXCEL数据库

押韵,也作“压韵”。作诗词曲赋等韵文时在句末或联末用同韵的字相押,称为押韵。诗歌押韵,使作品声韵和谐,便于吟诵和记忆,具有节奏和声调美。旧时押韵,要求韵部相同或相通,也有少数变格。现代新…

《开发问题解决》Window下7z解压:cannot create symbolic link : 客户端没有所需的特权

问题描述: 今天使用7z来解压东西的是突然出现这个问题。 问题解决: download直接下载到c盘中,由于所在文件夹有权限限制。无法进行正常解压。 7.zip解压时使用管理员权限进行解压,解压时使用管理员权限。即如图 使用管理员权限重…

【面试干货】找出一个偶数能够表示为两个素数之和的所有可能情况

【面试干货】找出一个偶数能够表示为两个素数之和的所有可能情况 1、实现思想2、代码实现 💖The Begin💖点点关注,收藏不迷路💖 1、实现思想 功能:通过循环遍历奇数,找出一个大于等于 6 的偶数能够表示为两…

【C++初阶】auto关键字

目录 1.auto简介 2.auto的使用 1.auto简介 在早期C/C中auto的含义是:使用auto修饰的变量,是具有自动存储器的局部变量,但遗憾的 是一直没有人去使用它,大家可思考下为什么? C11中,标准委员会赋予了auto全…

红队项目PinkysPalace格式字符串缓冲区溢出详解

简介 渗透测试-地基篇 该篇章目的是重新牢固地基,加强每日训练操作的笔记,在记录地基笔记中会有很多跳跃性思维的操作和方式方法,望大家能共同加油学到东西。 请注意: 本文仅用于技术讨论与研究,对于所有笔记中复现的…