01 机器学习概述

目录

1. 基本概念

2. 机器学习三要素

3. 参数估计的四个方法

3.1  经验风险最小化

3.2  结构风险最小化

3.3  最大似然估计

3.4  最大后验估计

4. 偏差-方差分解

5. 机器学习算法的类型

6. 数据的特征表示

7.  评价指标


1. 基本概念

        机器学习Machine LearningML就是研究如何让计算机从数据中进行自动学习,得到某种知识(或规律)并利用学习到的规律(模型)对未知或无法观测的数据进行预测

        机器学习的任务,比如光学字符识别、语音识别、人脸识别等.这些任务的特点是,对于我们人类而言很容易完成,但我们不知道自己是如何做到的,因此也很难人工设计一个计算机程序来完成这些任务。比如:下图中的手写数字识别,对人来说认识0~9很简单,但对计算机来说却十分困难.。

        在计算机中,一切皆数据,包括声音、图片或视频,均会被计算机转换为数组读取!

2. 机器学习三要素

3. 参数估计的四个方法

       关于参数分布及先验后验的一些概念,可参看一下文章: 

https://zhuanlan.zhihu.com/p/506449599icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/506449599

3.1  经验风险最小化

       这种方法用于求解线性回归参数时,也叫 最小二乘法 Least Square Method LSM ): 

       由于这种方法要求(XX^T) 必须有逆矩阵(满秩),而实际情况是(XX^T)并不一定满秩,这会导致参数\textbf{w}^*有多个解.。因此,一般会对数据预处理,比如通过主成分分析消除不同特征之间的相关性,使其满秩。

3.2  结构风险最小化

        如果数据量大且特征非常多,那么特征间可能存在多重共线性,即使预处理了数据,也会使得最小二乘法计算结果不稳定。为了解决这个问题,Hoerl等人提出了岭回归(Ridge Regression),也就是给(XX^T)的对角线元素都加上一个常数\lambda,使(XX^T+\lambda I)满秩,这种方法表现在风险函数上即为(相较经验风险函数)增加了一个正则项:

3.3  最大似然估计

        最大似然估计 Maximum Likelihood Estimation MLE 是指找到一组参数使似然函数的值最大,也等价于对数似然函数的值最大。最大似然估计参数方法如下:

 可以看出最大似然估计的解和最小二乘法的解相同。

3.4  最大后验估计

        最大似然估计的一个缺点是当训练数据比较少时会发生过拟合,估计的参数可能不准确.为了避免过拟合我们可以给参数加上一些先验知识,即基于经验对要估计的参数加上一定的限制,这样得到的参数称为最大后验估计,计算方法如下:

可以看出,最大后验概率等价于平方损失的结构风险最小化,其中正则化系数\lambda =\sigma ^2/\nu ^2

由于贝叶斯求解复杂,最大后验概率是贝叶斯学派的一种近似手段,最大后验估计和最大似然估计很像,只是多了一项先验分布,它体现了贝叶斯认为参数也是随机变量的观点,在实际运算中通常通过超参数给出先验分布

最大似然估计和贝叶斯估计可以分别看作频率学派和贝叶斯学派对需要估计参数的不同解释。

4. 偏差-方差分解

      关于偏差(bias)和方差(Variance)的概念可参看下面这篇文章:

偏差(bias)和方差(Variance)icon-default.png?t=N7T8https://blog.csdn.net/nanhuaibeian/article/details/102658419?ops_request_misc=&request_id=&biz_id=102&utm_term=%E5%81%8F%E5%B7%AE%E5%92%8C%E6%96%B9%E5%B7%AE&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-102658419.nonecase&spm=1018.2226.3001.4187

      针对于高偏差和高方差的解决措施,可参看我之前的文章:

《吴恩达机器学习 第二课 week3 学习算法(模型)进阶》icon-default.png?t=N7T8https://blog.csdn.net/weixin_43490087/article/details/139709608?spm=1001.2014.3001.5501

     偏差方差分解,是一种重要的分析技术,‌用于解释学习算法泛化能力。‌

     偏差方差分解将学习算法的期望误差分解为三个非负项的和,‌即样本真实噪声、‌偏差方差。‌这种分解帮助我们从统计学派的视角看待模型复杂度,‌提供了一种理解模型泛化性能的方法。‌如下:

5. 机器学习算法的类型

6. 数据的特征表示

       在实际应用中,数据的类型多种多样,比如文本、音频、图像、视频等,不同类型的数据,其原始特征(Raw Feature)的空间也不相同。而很多机器学习算法要求输入的样本特征是数学上可计算的,因此在机器学习之前我们需要将这些不同类型的数据转换为向量表示。

      (也有一些机器学习算法(比如决策树)不需要向量形式的特征)

 图像特征:表示为 𝑀 × 𝑁 维的向量,为了提高模型准确率,会经常加入一个额外的特征比如直方图宽高比、笔画数纹理特征边缘特征等。

文本特征:从文本形式转为向量形式一种简单的方式是使用词袋Bag-of-WordsBoW)模型,比如两个文本我 喜欢 读书我 讨厌 读书中共有”“喜欢”“”“读书四个词它们的BoW表示分别为[1 1 0 1]和[1 0 1 1]。

词袋模型将文本看作词的集合不考虑词序信息不能精确地表示文本信

一种改进方式是使用N元特征N-Gram Feature),即每𝑁 个连续词构成一个基本单元然后再用词袋模型进行表示以最简单的二元特征即两个词的组合特征)为例上面的两个文本中共有”“我喜欢”“我讨厌”“喜欢读书”“厌读书”“读书六个特征单元,随着 𝑁 的增长N 元特征的数量会指数上升,因此,在实际应用中,文本特征维数通常在十万或百万级别以上

特征工程(Feature Engineering)是指通过人工方式进行提取特征。一个成功的机器学习系统通常需要尝试大量的特征。

让机器自动地学习出有效的特征的研究内容,称为特征学习(Feature Learning),也叫表示学习Representation Learning)。

7.  评价指标

     (1)准确率(所有类别整体性能的平均

         最常用的评价指标为 准确率 Accuracy ):

     (2)错误率

       和准确率相对应的就是错误率Error Rate):

      (3)精确率和召回率(单个类进行性能估计

        准确率是所有类别整体性能的平均 如果希望对每个类都进行性能估计, 就需要计算 精确率 Precision 召回率 Recall ):

 

        精确率Precision),也叫精度查准率

        召回率 Recall ), 也叫 查全率:

        F F Measure 是一个综合指标 为精确率和召回率的调和平均

其中𝛽 用于平衡精确率和召回率的重要性一般取值为1𝛽 = 1时的F值称为F1 值。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/47125.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程控电阻器

程控电阻器 由于要测试电阻型温度传感器,一个电阻箱又很贵,就想做一款 程控电阻器 来满足。 设计满足300Ω到400kΩ可调电阻。 设计思路 选择数字电位器去控制电阻输出,最好是精度高,范围大的数字电位器。经过寻找后,发…

Beelzebub过程记录及工具集

文章目录 靶场搭建靶场测试过程安装dirsearch扫描目录wpscan扫描破解 靶场搭建 https://download.vulnhub.com/beelzebub/Beelzebub.zip 下载解压镜像,从vmware打开。 一键式开机即可。 打开后配置网络。 确保网络可达。 靶场测试过程 首先使用nmap扫描网段的存…

深入理解Session和Cookie的作用与联系

深入理解Session和Cookie的作用与联系 1、什么是Cookie?1、什么是Session?1、Session和Cookie的联系4、实际应用场景 💖The Begin💖点点关注,收藏不迷路💖 Session和Cookie是两个至关重要的概念&#xff0c…

Abaqus基于CT断层扫描的三维重建插件CT2Model 3D

插件介绍 AbyssFish CT2Model 3D V1.0 插件可将采用X射线等方法获取的计算机断层扫描(CT)图像在Abaqus有限元软件内进行三维重建,进而高效获取可供模拟分析的有限元模型。插件可用于医学影像三维重构、混凝土细观三维重建、岩心数字化等领域…

商品运营分析

本文对某个品类(猫砂)在1688的情况,进行一定维度的分析: 内容主要是: 1.品类前景 2.阿里巴巴商家平台和淘宝平台销售,销量分析(爬虫获取数据) 3.对获取的数据,进行分…

解析 Mira :基于 Web3,让先进的 AI 技术易于访问和使用

“Mira 平台正在以 Web3 的方式解决当前 AI 开发面临的复杂性问题,同时保护 AI 贡献者的权益,让他们可以自主拥有并货币化自己的模型、数据和应用,以使先进的 AI 技术更加易于访问和使用。” AI 代表着一种先进的生产力,它通过深…

二叉树问题,两种解决方法(1遍历 2直接定义名字功能递归

1第一种方法就是另写一个traverse方法,2第二种方法就是把函数名当成已经实现的功能,直接写 1、翻转二叉树 class Solution {public TreeNode invertTree(TreeNode root) {if(rootnull) return null;TreeNode leftinvertTree(root.left);TreeNode righti…

博客都在使用的主题切换使用vue2实现思路

效果展示 步骤 1-变量定义css主题色 2-html初始化主题样式 3-vuex存储主题变量,点击触发修改根元素html的样式 4-method触发方法 mutation使用commit action使用dispatch 5-App组件引入该css文件,使用即可 6-将其加入本地存储,刷新后保持主…

烟雾监测与太阳能源:实验装置在其中的作用

太阳光在烟雾中的散射效应研究实验装置是一款模拟阳光透过烟雾环境的设备。此装置能帮助探究阳光在烟雾中的传播特性、散射特性及其对阳光的影响。 该装置主要包括光源单元、烟雾发生装置、光学组件、以及系统。光源单元负责产生类似于太阳光的光线,通常选用高亮度的…

华为OD算法题汇总

60、计算网络信号 题目 网络信号经过传递会逐层衰减,且遇到阻隔物无法直接穿透,在此情况下需要计算某个位置的网络信号值。注意:网络信号可以绕过阻隔物 array[m][n],二维数组代表网格地图 array[i][j]0,代表i行j列是空旷位置 a…

Mamori.xyz:基于机器学习的区块链价值提取系统

Mamori.xyz 是一个基于机器学习的自动化区块链价值提取系统,其开创一种通用路径查找器,该工具可用于检测和防御潜在的未知安全风险,Mamori.xyz 也将其称为“未知的未知”,即智能合约中的零日漏洞和新出现的与区块链相关的软件问题…

leetcode-383.赎金信

题源 383.赎金信 题目描述 给你两个字符串:ransomNote 和 magazine ,判断 ransomNote 能不能由 magazine 里面的字符构成。如果可以,返回 true ;否则返回 false 。magazine 中的每个字符只能在 ransomNote 中使用一次。示例 1&…

Qt Creator:C++与Python混合编程

目录 1.前言 2.调用Python前的准备 3.在Qt Creator中配置Python库 4.在Qt Creator中添加Python代码 5.在Qt Creator中运行Python代码 6.运行效果 前言 在进行软件开发过程中,我们一般都是在特定的环境下特定的开发语言下进行编程。但是在开发中总有特殊情况&#xf…

微调 Florence-2 - 微软的尖端视觉语言模型

Florence-2 是微软于 2024 年 6 月发布的一个基础视觉语言模型。该模型极具吸引力,因为它尺寸很小 (0.2B 及 0.7B) 且在各种计算机视觉和视觉语言任务上表现出色。 Florence 开箱即用支持多种类型的任务,包括: 看图说话、目标检测、OCR 等等。虽然覆盖面…

前缀和算法——部分OJ题详解

(文章的题目解释可能存在一些问题,欢迎各位小伙伴私信或评论指点(双手合十)) 关于前缀和算法 前缀和算法解决的是“快速得出一个连续区间的和”,以前求区间和的时间复杂度是O(N),使用前缀和可…

【精品资料】大数据可视化平台数据治理方案(626页WORD)

引言:大数据可视化平台的数据治理方案是一个综合性的策略,旨在确保大数据的质量、安全性、可访问性和合规性,从而支持高效的数据分析和可视化过程。 方案介绍: 大数据可视化平台的数据治理方案是一个综合性的策略,旨在…

微软的vscode和vs2022快捷键官网链接

vscode官方文档:https://code.visualstudio.com/docs/ vscode快捷键官方文档:https://code.visualstudio.com/docs/getstarted/keybindings vs2022官方文档:https://learn.microsoft.com/zh-cn/visualstudio/ide/?viewvs-2022 vscode快捷键官方文档:https://learn.microsoft.c…

Linux编程(通信协议---udp)

UDP(用户数据报协议)是一种无连接的网络协议,主要用于快速传输数据。以下是UDP协议的一些主要特点: 1. **无连接**:UDP是无连接的协议,这意味着在数据传输之前不需要建立连接。每个UDP数据包都是独立的&am…

Spark的动态资源分配算法

文章目录 前言基于任务需求进行资源请求的整体过程资源申请的生成过程详解资源申请的生成过程的简单例子资源调度算法的代码解析 申请资源以后的处理:Executor的启动或者结束对于新启动的Container的处理对于结束的Container的处理 基于资源分配结果进行任务调度Pen…

win10删除鼠标右键选项

鼠标右键菜单时,发现里面的选项特别多,找一下属性,半天找不到。删除一些不常用的选项,让右键菜单变得干净整洁。 1、按下键盘上的“winR”组合按键,调出“运行”对话框,输入“regedit”命令,点击…