文章目录
- 机器学习与深度学习
- 1. 什么是人工智能?
- 2. 机器学习、深度学习和人工智能又是什么关系?
- 3. 人工智能解决了什么问题?为什么需要人工智能?
- 4. 机器学习、深度学习常用术语
- 1)模型
- 2)数据集
- 3)样本&特征
- 4) 向量
- 5)矩阵
- 6)假设函数&损失函数
- 7)拟合&过拟合&欠拟合
- 8)学习方式
- 9)回归
- 10)分类&聚类
- 机器学习算法
- 1. 线性回归
- 2. 逻辑回归
- 3. 决策树
- 4. K-近邻算法
- 深度学习算法
- 1. 人工神经网络
- 2. 反向传播算法
- 3. 卷积神经网络
- 4. Transformer
- 如何去理解模型?如何理解机器学习?
- 1. 什么是模型?
- 2. 什么是机器学习?
- 3. 总结
机器学习与深度学习
1. 什么是人工智能?
“人工智能”(Artificial Intelligence),英文缩写为 AI 从字面意思来看,它指的是让机器获得像人一样的智慧。
人工智能是计算机科学技术的一个分支,指的是通过机器和计算机来模拟人类智力活动的过程。
人工智能领域包括机器人、语言识别、图像识别、自然语言处理、大模型等。
人工智能并不是人的智能,而是让机器像人一样思考,甚至于超过人类。
2. 机器学习、深度学习和人工智能又是什么关系?
如下图所示:
机器学习是人工智能的一部分,而深度学习又是机器学习的一部分。
机器学习是一种功能、方法,或者更具体的说是一种算法,它能够赋予机器进行学习的能力,从而使机器完成一些通过编程无法直接实现的功能。
但从具体的实践意义来说,其实机器学习是利用大量数据训练出一个最优模型,然后再利用此模型预测出其他数据的一种方法。
3. 人工智能解决了什么问题?为什么需要人工智能?
如图:
问题:如果让计算机知道上面的图片中,是猫还是狗?
拆解问题:
输入:一张图片
输出:猫 or 狗
你会发现不管你是用什么编程语言,多面牛逼的数据结构与算法,你都无法达到95%以上的正确率。
这个时候就可以使用AI来做这件事情了。
这个时候就可以使用AI来做这件事情了。
类型 | 正确率 |
---|---|
编程 | 70% |
机器学习 | 90% |
深度学习 | 99.99% |
4. 机器学习、深度学习常用术语
1)模型
模型这一词语将会贯穿整个教程的始末,它是机器学习中的核心概念。
你可以把它看做一个“魔法盒”,你向它许愿(输入数据),它就会帮你实现愿望(输出预测结果)。
整个机器学习的过程都将围绕模型展开,训练出一个最优质的 “魔法盒”,它可以尽量精准的实现你许的 “愿望”,这就是机器学习的目标。
比如:房价预测模型,动物识别模型,车牌识别模型等等。模型训练好后,就可以对现实世界的一些数据进行预测。
-
f(x) = y
-
x
为输入 -
y
为输出 -
f(x)
为模型
2)数据集
数据集,它表示一个承载数据的集合,如果说 “模型” 是 “魔法盒” 的话,那么数据集就是负责给它充能的 “能量电池”。简单地说,如果缺少了数据集,那么模型就没有存在的意义了。
数据集可划分为 “训练集” 和 “测试集”,它们分别在机器学习的 “训练阶段” 和 “预测输出阶段” 起着重要的作用。
-
训练集:用于模型训练
-
测试集:用于测试模型训练的结果
3)样本&特征
样本指的是数据集中的数据,一行数据被称为 “一个样本”,通常情况下,样本会包含多个特征值用来描述数据。
比如现在有一组描述人形态的数据 “1001 180 70 25”
如果单看数据你会非常茫然,但是用 “特征” 描述后就会变得容易理解,如下所示:
ID | 姓名 | 身高 | 体重 | 年龄 |
---|---|---|---|---|
1001 | 小明 | 180 | 70 | 25 |
1002 | 小马 | 176 | 65 | 23 |
由上图可知数据集的构成是 “一行一样本,一列一特征” 。
特征值也可以理解为数据的相关性,每一列的数据都与这一列的特征值相关。
上述的「ID」「姓名」「身高」「体重」「年龄」就是一个个特征。
4) 向量
向量是机器学习的关键术语。向量也称欧几里得向量、几何向量、矢量,指具有大小和方向的量。
可以形象地把它的理解为:带箭头的线段。箭头所指:代表向量的方向;线段长度:代表向量的大小。
与向量对应的量叫做数量(物理学中称标量),数量只有大小,没有方向。
在机器学习中,模型算法的运算均基于线性代数运算法则,比如行列式、矩阵运算、线性方程等等。
5)矩阵
矩阵也是一个常用的数学术语,你可以把矩阵看成由向量组成的二维数组,数据集就是以二维矩阵的形式存储数据的,你可以把它形象的理解为电子表格表现形式如下:
6)假设函数&损失函数
(1)假设函数
假设函数(Hypothesis Function)可表述为 y = f(x)
,其中 x
表示输入数据,而 y
表示输出的预测结果,而这个结果需要不断的优化才会达到预期的结果,否则会与实际值偏差较大。(模型)
(2)损失函数
损失函数(Loss Function)又叫目标函数,简写为 L(x)
,这里的 x
是假设函数得出的预测结果 y
,如果 L(x)
的返回值越大就表示预测结果与实际偏差越大,越小则证明预测值越来越 “逼近” 真实值,这才是机器学习最终的目的。因此损失函数就像一个度量尺,让你知道 “假设函数” 预测结果的优劣,从而做出相应的优化策略。
(3)优化方法
“优化方法” 可以理解为假设函数和损失函数之间的沟通桥梁。通过 L(x)
可以得知假设函数输出的预测结果与实际值的偏差值,当该值较大时就需要对其做出相应的调整,这个调整的过程叫做 “参数优化”,常见的优化方法如:梯度下降法、牛顿方与拟牛顿法、共轭梯度法等等。
对于优化方法的选择,我们要根据具体的应用场景来选择应用哪一种最合适,因为每一种方法都有自己的优劣势,所以只有合适的才是最好的。
上述函数的关系图如下所示:
举个例子:我设计了一个函数 y=f(x)
可以预测房价,然后我通过这个假设函数输入房子的面积和位置预测了房价,然后拿预测的房价和市场上的挂牌价进行对比,和实际值直接的偏差即 L(x)
损失函数,如果偏差很小,说明不需要优化,如果偏差特别大,就需要考虑使用那些优化方法去优化我的假设函数。
7)拟合&过拟合&欠拟合
(1)拟合
形象地说,“拟合” 就是把平面坐标系中一系列散落的点,用一条光滑的曲线连接起来,因此拟合也被称为 “曲线拟合”。
拟合的曲线一般用函数进行表示,但是由于拟合曲线会存在许多种连接方式,因此就会出现多种拟合函数。
通过研究、比较确定一条最佳的 “曲线” 也是机器学习中一个重要的任务。
如下图所示,展示一条拟合曲线(蓝色曲线):
如何理解拟合,举个例子:上图假设为超市每天的营业额,通过对历史数据拟合出来一条拟合曲线,通过这个拟合曲线去预测未来的营业额。
(2)过拟合
过拟合(overfitting)与是机器学习模型训练过程中经常遇到的问题,所谓过拟合,通俗来讲就是模型的泛化能力较差,也就是过拟合的模型在训练样本中表现优越,但是在验证数据以及测试数据集中表现不佳。
(我在房价预测模型中的表现特别好,每一个标本都吻合,但是一旦预测一个新的房源,预测值和实际值就相差太大)
过拟合问题在机器学习中经常遇到,主要是因为训练时样本过少,特征值过多导致的。
(3)欠拟合
欠拟合(underfitting)恰好与过拟合相反,它指的是 “曲线” 不能很好的 “拟合” 数据。
在训练和测试阶段,欠拟合模型表现均较差,无法输出理想的预测结果。如下图所示:
造成欠拟合的主要原因是由于没有选择好合适的特征值。
8)学习方式
(1)有监督学习
有监督学习(supervised learning),需要你事先需要准备好要输入数据(训练样本)与真实的输出结果(参考答案),然后通过计算机的学习得到一个预测模型,再用已知的模型去预测未知的样本,这种方法被称为有监督学习。这也是是最常见的机器学习方法。
(2)无监督学习
理解了有监督学习,那么无监督学习理解起来也变的容易。
所谓无监督学习(unsupervised learning)就是在没有 “参考答案” 的前提下,计算机仅根据样本的特征或相关性,就能实现从样本数据中训练出相应的预测模型。
一句话描述学习方式
监督学习:训练数据包括正确的结果。
无监督学习:训练数据不包括正确的结果。
强化学习:根据每次结果收获的奖惩进行学习,根据结果实现优化。
监督学习包含:线性回归 、逻辑回归、决策树、神经网络、卷积神经网络、循环神经网络等其他大模型。
无监督学习:分类算法。
强化学习:Deepseek
预测结果(算法)分类
根据预测结果的类型,我们可以对上述学习形式做具体的问题划分,这样就可以具体到实际的应用场景中,比如有监督学习可以划分为:
- 回归问题
- 分类问题
如果预测结果是离散的,通常为分类问题;而为连续的,则是回归问题。
9)回归
连续和离散是统计学中的一种概念,全称为 “连续变量” 和 “离散变量”。
比如身高,从 1.2m
到 1.78m
这个长高的过程就是连续的,身高只随着年龄的变化一点点的长高。
10)分类&聚类
那么什么是 “离散变量” 呢?
比如超市每天的销售额,这类数据就是离散的,因为数据不是固定,可能多也可能少。
聚类/分类问题,那什么是 “聚类”?
其实可以用一个成语表述 “物以类聚,人以群分”,将相似的样本聚合在一起后,然后进行分析。
机器学习算法
1. 线性回归
线性回归 是一种用于预测连续值的监督学习算法。
它的核心思想是通过拟合一个线性模型来描述 自变量(特征)和 因变量(目标)之间的关系。
线性回归就是用一条直线来预测数据。比如:
- 你知道房子越大,房价越高。
- 线性回归就是找到一条直线,表示 “房子大小” 和 “房价” 之间的关系。
简单例子,假设有以下数据:
- 房子 50 平米,价格 100 万
- 房子 60 平米,价格 120 万
- 房子 70 平米,价格 140 万
线性回归会找到一条直线,比如:
房价 = 2 × 面积 房价=2×面积 房价=2×面积
- 2 是斜率,表示每增加 1 平米,房价增加 2 万。
- 如果房子是 80 平米,预测房价就是: 2 × 80 = 160 万 2×80=160 万 2×80=160万
2. 逻辑回归
逻辑回归是最简单的线性分类器,使用 sigmoid 函数对结果进行映射,一般适用于二分类问题,但也可以扩展到多分类问题。
逻辑回归是用来做分类的,比如预测 “是/否”。它通过一个S形曲线(Sigmoid函数)把数据分成两类。
假设:
- 如果你学习 2小时,考试 没通过(0)。
- 如果你学习 4小时,考试 通过了(1)。
逻辑回归会学习到:
- 学习时间越长,通过考试的概率越高。
- 比如,学习 3小时 时,通过概率是 50%。
逻辑回归就是:
- 输入一个值(比如学习时间)。
- 输出一个概率(比如通过考试的概率)。
- 根据概率回答“是”或“否”。
3. 决策树
决策树是一种基于树结构的分类器,通过递归地将数据集划分成更小的子集来进行分类。
决策树就是通过一系列 “如果…那么…” 的问题来做决定。比如:
- 如果天气是晴天,那么不打篮球。
- 如果天气是雨天且风大,那么不打篮球。
- 如果天气是阴天,那么打篮球。
超级简单例子
假设有以下数据:
- 天气是晴天 → 不打篮球
- 天气是雨天且风大 → 不打篮球
- 天气是雨天且风小 → 打篮球
- 天气是阴天 → 打篮球
决策树会这样划分:
- 天气是晴天吗?
- 是 → 不打篮球
- 不是 → 继续问
- 天气是阴天吗?
- 是 → 打篮球
- 不是 → 继续问
- 风大吗?
- 是 → 不打篮球
- 不是 → 打篮球
总结
决策树就是通过一连串的 “是/否” 问题,一步步找到答案。就像玩猜谜游戏,不断缩小范围,直到得出结论! 😊
4. K-近邻算法
KNN 是通过计算候选样本和训练样本的距离,通过查找其最近的 K
个邻居(训练数据中的点),根据这些邻居的类别或值来预测结果。
KNN 就是 “找邻居” 来做预测。比如:
- 你想知道一个新水果是苹果还是橙子,就看看它周围的水果是什么。
- 如果周围大多数是苹果,就猜它是苹果;如果大多数是橙子,就猜它是橙子。
深度学习算法
深度学习算法是目前为止应用最为广泛的算法,包含非常多的种类,本篇文章只做简单的介绍,针对算法不会进行大范围的讲解。
1. 人工神经网络
**生物神经元工作原理:**多个神经树突的电位使神经细胞的膜电位发生变化,且电位的变化是可以累加的,电势达到某个阈值时,就会沿着轴突向下传输一个脉冲。
**人工神经元:**模拟生物神经元的工作原理,接收一个或多个输入,并将它们相加以产生输出,总和通过一个非线性函数,称为激活函数或传递函数。
常见的激活函数:
Sigmoid 函数
ReLU函数
2. 反向传播算法
反向传播算法通过计算梯度并更新参数,逐步优化神经网络。
它的核心是利用链式法则将误差从输出层传播回输入层,从而调整每一层的参数。
反向传播是训练神经网络的 “秘诀”。它的作用是告诉神经网络:“你哪里错了,该怎么改”。
两步走:
- 前向传播:输入数据,计算输出结果。
- 反向传播:从结果开始,倒着计算每一层的错误,然后调整参数(权重和偏置)。
反向传播就是:
- 计算输出和误差。
- 倒着计算每一层该调整多少。
- 更新参数,让结果更准确。
3. 卷积神经网络
卷积神经网络 是一种专门用于处理图像、视频等网格数据的深度学习模型。它的核心思想是通过卷积操作提取局部特征,并通过池化操作降低数据维度,最终通过全连接层进行分类或回归。
CNN 是一种专门用来处理图片的神经网络。它的特点是:
- 卷积:用一个小窗口(卷积核)在图片上滑动,提取局部特征(比如边缘、纹理)。
- 池化:缩小图片尺寸,保留重要信息,减少计算量。
- 全连接:把提取的特征转换成最终的分类结果(比如图片是猫还是狗)。
CNN 就是:
- 用卷积核提取图片特征。
- 用池化缩小图片。
- 用全连接层分类。
简单来说,CNN 就是 “看局部,抓重点,做判断”!
4. Transformer
说回 Transformer 本身,它擅长自然语言处理,在它出现之前,RNNs,LTSM等网络模型是 NLP 领域的常用深度学习模型。
Transformer 是一种用来处理文字、语音等序列数据的模型。它的特点是:
-
注意力机制:让模型能够同时看到整个句子,而不是像 RNN 那样一个字一个字看。
-
并行计算:可以同时处理整个句子,速度更快。
-
适合翻译、生成任务:比如把英文翻译成中文,或者写一段话。
Transformer的核心是:编码器-解码器以及注意力机制。
Transformer 就是:
-
同时看整个句子。
-
分析词与词之间的关系。
-
根据关系生成结果(比如翻译)。
简单来说,Transformer 就是“一眼看全句,抓关系,出结果”! 😊
如何去理解模型?如何理解机器学习?
1. 什么是模型?
模型 就像是一个“魔法盒子”,你给它输入一些东西,它就会输出一些结果。比如:
- 你给模型一张猫的图片,它会告诉你:“这是猫!”
- 你给模型一段话,它会告诉你:“这句话的意思是开心!”
例子:
想象你有一个 “水果分类器” 模型:
- 你给它一个苹果,它会说:“这是苹果!”
- 你给它一个香蕉,它会说:“这是香蕉!”
这个 “魔法盒子” 是怎么学会的呢?这就是 机器学习 的作用了!
2. 什么是机器学习?
机器学习 就是教 “魔法盒子” 学习的过程。就像教小朋友认东西一样:
-
给例子:你告诉模型:“这是苹果,这是香蕉。”
-
学习规律:模型通过例子,自己总结出苹果和香蕉的区别。
-
自己判断:以后你给它一个水果,它就能自己判断是苹果还是香蕉。
例子:
- 第一步:你给模型看很多苹果和香蕉的图片,并告诉它哪个是苹果,哪个是香蕉。
- 第二步:模型学会:“苹果是红色的、圆圆的;香蕉是黄色的、弯弯的。”
- 第三步:你给模型一张新图片,它就能自己判断是苹果还是香蕉!
3. 总结
- 模型 是一个 “魔法盒子”,用来解决问题(比如分类、预测)。
- 机器学习 是教这个 “魔法盒子” 学习的过程,通过例子让它自己总结规律。
简单来说:
- 模型 = 魔法盒子
- 机器学习 = 教魔法盒子学习
就像教小朋友认水果一样,给例子、学规律、自己做判断! 😊